Multimodal-Search-R1:字节跳动开源的端到端多模态搜索强化学习框架
Multimodal-Search-R1(简称MMSearch-R1)是一款开源的端到端强化学习框架,核心定位是让多模态大语言模型(LMMs)具备按需、多轮、自主的真实世界多模态搜索能力,解决传统...
Multimodal-Search-R1(简称MMSearch-R1)是一款开源的端到端强化学习框架,核心定位是让多模态大语言模型(LMMs)具备按需、多轮、自主的真实世界多模态搜索能力,解决传统...
Pixel Reasoner是由滑铁卢大学、香港科技大学、中国科学技术大学及Vector Institute联合TIGER-AI-Lab研发的开源视觉语言模型(VLM)项目,基于Qwen2.5-VL架构搭建,首创像素...
LLaMA-Factory是一站式统一高效大语言模型与多模态模型微调框架,项目核心目标是降低大模型定制化训练的技术门槛,让零基础用户、开发者、科研人员与企业工程师,都能在无需...
TTT - Discover是由斯坦福大学和英伟达研究团队联合提出的测试时训练框架,其核心创新在于突破传统AI推理阶段冻结模型参数的局限,在测试阶段针对单个具体问题通过强化学习...
SkyReels V3是昆仑万维旗下Skywork AI团队自主研发的第三代旗舰多模态视频生成模型,基于统一多模态上下文学习框架与扩散Transformer架构打造,原生集成参考图像生成视频、...
Qwen3-ASR是由阿里云通义千问(QwenLM)团队完全开源的一站式语音识别(ASR)与语音-文本强制对齐解决方案,基于Qwen3-Omni多模态大模型基座研发,是一套集语音转写、语言自...
SenseNova-MARS是商汤科技开源的多模态智能体推理与搜索框架,以强化学习为核心技术,赋予视觉语言模型动态视觉推理与图像裁剪、图像搜索、文本搜索多工具协同调用能力,提...
UnifoLM-VLA-0是宇树科技UnifoLM模型家族中,面向通用人形机器人操作的视觉-语言-动作(VLA)大模型,也是当前具身智能领域聚焦物理交互的核心开源框架。该模型通过在专业机...
MOVA是由OpenMOSS团队研发的开源音视频同步生成基础模型,其采用非对称双塔架构与双向交叉注意力机制,在多语言唇形同步、环境音效匹配上达到领先水平,全栈开放模型权重、...
近日,广受关注的本地化AI代理项目完成重要里程碑式升级:原名为 ClawdBot(后短暂使用过 Moltbot)的开源项目,已正式定名并全面启用新名称——OpenClaw。这一更名并非简单...