开源大模型

Multimodal-Search-R1：字节跳动开源的端到端多模态搜索强化学习框架

Multimodal-Search-R1（简称MMSearch-R1）是一款开源的端到端强化学习框架，核心定位是让多模态大语言模型（LMMs）具备按需、多轮、自主的真实世界多模态搜索能力，解决传统...

2个月前 AI新闻

123

SenseNova-MARS：商汤科技开源的多模态智能体框架，实现动态视觉推理与多工具协同搜索

SenseNova-MARS是商汤科技开源的多模态智能体推理与搜索框架，以强化学习为核心技术，赋予视觉语言模型动态视觉推理与图像裁剪、图像搜索、文本搜索多工具协同调用能力，提...

2个月前 AI新闻

121

Kimi K2.5：月之暗面发布的开源多模态大模型，支持Agent协作与全场景智能任务执行

Kimi K2.5是由北京月之暗面科技（Moonshot AI）发布的开源多模态大模型，同步上线于Hugging Face官方仓库，是Kimi系列模型的重磅升级版本。其核心定位是“面向全场景的高性...

2个月前 AI新闻

216

GLM-4.7-Flash：智谱开源的 30B 级轻量化混合专家模型，支持本地部署与多场景应用

GLM-4.7-Flash 是由智谱科技开源的轻量化混合专家（MoE）大语言模型，总参数量达 30B，推理时仅激活 3B 参数，实现了高性能与低资源消耗的平衡。该模型支持 200K 长上下文窗...

3个月前 AI新闻

260

AgentCPM：清华和人大等联合开源的LLM智能体研发套件

AgentCPM是一套面向大语言模型智能体（LLM Agent）研发的开源项目，不同于单一功能的智能体工具，AgentCPM定位为“智能体研发全流程套件”，既包含可直接部署使用的基础智能...

3个月前 AI新闻

197

EvoCUA：美团开源的多模态端到端计算机交互智能体

EvoCUA（Evolving Computer Use Agent）是由美团公司重磅开源的一款通用多模态计算机使用智能体，核心能力为基于实时桌面截图与自然语言指令，实现对主流桌面软件的端到端、...

3个月前 AI新闻

118

阿里Wan2.2-Animate-14B本地部署教程：一键生成AI动画视频（图文详解）

阿里巴巴Wan团队开源Wan2.2-Animate-14B模型，支持静态图生成高保真角色动画。本文详解Ubuntu系统下基于ComfyUI的本地部署全流程，涵盖环境配置、依赖安装、模型下载与运行...

3个月前 AI教程

423

XVERSE-Ent：元象推出的娱乐领域专用开源 MoE 大语言模型系列

XVERSE-Ent是由深圳元象并开源的面向娱乐领域的专用预训练大语言模型系列，基于混合专家（MoE）架构打造，包含中文XVERSE-Ent-A4.2B与英文XVERSE-Ent-A5.7B两款模型。该项目...

3个月前 AI新闻

146

TeleChat3：中国电信开源的国产算力大语言模型（LLM）项目

TeleChat3 是中国电信人工智能研究院依托全国产算力研发的开源大语言模型（LLM）项目，聚焦 TeleChat3 系列模型（105B-A4.7B-Thinking、36B-Thinking）的推理、微调、国产化...

3个月前 AI新闻

156

Qwen-Doc：阿里通义推出的开源长文档处理与智能推理工具集

Qwen-Doc是由阿里巴巴通义智文团队开发并开源的专注于文档智能的代码库，不同于常规的文档解析工具，Qwen-Doc核心聚焦大语言模型在长文本、复杂文档场景下的能力提升，解决...

3个月前 AI新闻

146

QuantiPhy：开源视觉-语言模型定量物理推理评估基准，精准衡量AI运动学推理能力

QuantiPhy是首个专注于评估视觉-语言模型（VLMs）定量运动学推理能力的开源评估基准及配套代码库，该项目通过多区域准确率（MRA）核心指标，从难度等级、任务类别等维度衡量...

4个月前 AI新闻

112

MedASR：谷歌开源的医疗场景专属自动语音识别模型

MedASR是谷歌健康团队开源的医疗领域专用自动语音识别模型，核心聚焦临床语音转文本场景，解决通用ASR模型医疗术语识别不准、误判率高的痛点。该模型基于轻量化Conformer架...

4个月前 AI新闻

160

Qwen-Image-Layered：阿里通义千问开源的AI图像分层编辑模型

Qwen-Image-Layered是阿里巴巴通义千问团队（QwenLM）开源的一款专注于图像分层与精准编辑的AI模型，是当前业内首个实现“原生图层解耦”的开源扩散模型，核心定位是让AI具...

4个月前 AI新闻

149

Fun-Audio-Chat：阿里通义开源的低延迟大音频语言模型

Fun-Audio-Chat是由阿里通义实验室开源的一款面向自然、低延迟语音交互场景设计的大型音频语言模型（Large Audio Language Model）。该模型创新性引入双分辨率语音表示架构...

4个月前 AI新闻

94

MiMo-V2-Flash：小米开源的千亿级混合专家语言模型，高速推理与长上下文处理兼备

MiMo-V2-Flash 是小米公司开源的千亿级混合专家（MoE）架构语言模型，总参数规模达3090亿，活跃参数仅150亿，实现了高性能与低推理成本的平衡。该模型创新采用混合注意力架...

4个月前 AI新闻

91