开源大模型

LongCat-Video-Avatar：美团开源的多任务音频驱动动画生成模型

LongCat-Video-Avatar 是美团开源的统一音频驱动角色动画模型，支持音频 - 文本到视频、音频 - 文本 - 图像到视频及视频续播三大核心任务，兼容单流与多流音频输入。该模型...

4个月前 AI新闻

86

SAM-Audio：Meta 研究院推出的开源多模态音频分离基础模型

SAM-Audio是Meta研究院推出一款能够通过多模态提示实现通用音频分离的开源基础模型。SAM-Audio的核心理念是“提示即指令”，用户无需编写复杂的代码或调整繁琐的参数，只需...

4个月前 AI新闻

114

TRELLIS.2：微软开源的高保真图像到 3D 生成模型

TRELLIS.2是微软开源的高保真图像到3D生成大模型，具备4B参数规模，核心采用创新O-Voxel无场稀疏体素结构，突破传统3D生成模型的拓扑限制与效率瓶颈。该模型支持512³-1536...

4个月前 AI新闻

112

SenseNova-SI：商汤科技开源的高性能多模态空间智能训练与推理模型

SenseNova-SI 是由商汤科技开源的多模态空间智能项目，聚焦于提升基础大模型的空间认知能力。该项目依托 800 万规模的专用数据集，基于 Qwen3-VL、InternVL3 等主流基础模...

4个月前 AI新闻

113

LLaDA2.0：蚂蚁集团开源的大参数扩散型生成式 AI 模型

LLaDA2.0 是蚂蚁集团推出的一系列离散扩散大型语言模型（dLLMs），涵盖 16B 参数的基础版本与 100B 参数的混合专家（MoE）版本，是目前参数规模最大的扩散语言模型之一。该...

4个月前 AI新闻

162

开源大模型新标杆：DeepSeek-V3.2 凭何实现高效与智能双突破

DeepSeek-V3.2是一款智能水平位居开源权重模型第二名的高效能大模型，其核心优势源于DeepSeek稀疏注意力技术脱离实验性阶段并实现规模化应用，不仅超越Grok 4、Claude Sonn...

4个月前 AI新闻

98

DeepSeek-Math-V2：DeepSeek开源的可自我验证数学推理大语言模型

DeepSeek-Math-V2 是由深度求索（deepseek-ai）团队基于 DeepSeek-V3.2-Exp-Base 模型打造的开源数学推理大模型，核心聚焦于可自我验证的数学推理能力构建。该模型创新性地...

4个月前 AI新闻

182

Emu3.5：北京智源开源的原生多模态世界模型

Emu3.5是由北京人工智能研究院开源的大规模原生多模态世界模型，其基于单一340亿参数Transformer架构，以“下一状态预测（NSP）”为核心训练目标，在超13万亿多模态Token上...

4个月前 AI新闻

100

Z-Image Turbo Controlnet Union：阿里开源多条件控制 ControlNet 模型，低显存高效支持精准图像生成与编辑

Z-Image Turbo Controlnet Union是阿里通义实验室开源的ControlNet扩展模型，基于Z-Image系列单流扩散架构，6B参数实现 photorealistic 渲染，支持Canny、HED、姿态等多模态...

4个月前 AI新闻

383

MOSS-Speech：复旦大学开源的端到端语音大模型，无文本引导实现自然语音交互

MOSS-Speech是由复旦大学邱锡鹏教授领衔的OpenMOSS团队（国内知名AI开源团队，曾推出MOSS大模型系列）研发的原生语音到语音（Speech-to-Speech, S2S）开源大模型，旨在打破...

4个月前 AI新闻

220

Z-Image：阿里通义开源的轻量级AI图像生成与编辑模型，支持亚秒级推理与中英双语精准渲染

Z-Image是阿里巴巴通义实验室开源的轻量级图像生成基础模型，以6B参数实现接近20B级商业模型的视觉质量，包含Turbo（高效推理）、Base（基础微调）、Edit（图像编辑）三个变...

4个月前 AI新闻

809

Depth Anything 3：字节跳动开源的全场景任意视图3D几何重建模型

Depth Anything 3是字节跳动Seed团队开源的3D视觉基础模型，旨在从任意数量、任意视角的视觉输入中恢复空间一致的三维几何结构。该模型采用“单Transformer主干+Depth-Ray统...

4个月前 AI新闻

767

HunyuanOCR：腾讯混元开源的轻量高效多模态OCR大模型，全场景多语种图文智能解析

HunyuanOCR是腾讯混元开源的端到端OCR专家模型，基于混元原生多模态架构构建，仅1B参数便实现了业界多项SOTA性能。该工具覆盖文字检测识别、复杂文档解析、开放字段信息抽取...

5个月前 AI新闻

248

Ruyi：CreateAI推出的开源图像转视频大模型，支持768分辨率与多维度视频控制

Ruyi是Ruyi-Models项目的核心图像到视频（Image-to-Video, i2v）生成模型，由CreateAI团队开发并开源，旨在为用户提供“低门槛、高性能、高自由度”的视频生成解决方案。不...

5个月前 AI新闻

51

MiMo-Embodied：小米开源的7B跨具身视觉语言模型，打通自动驾驶与具身AI双领域推理

MiMo-Embodied是小米公司具身智能团队推出的一款开源跨具身视觉语言模型（Vision-Language Model, VLM），于2025年正式发布。作为全球首个整合自动驾驶与具身AI两大关键领域...

5个月前 AI新闻

117

开源大模型新闻、工具、教程及资源推荐

LongCat-Video-Avatar：美团开源的多任务音频驱动动画生成模型

SAM-Audio：Meta 研究院推出的开源多模态音频分离基础模型

TRELLIS.2：微软开源的高保真图像到 3D 生成模型

SenseNova-SI：商汤科技开源的高性能多模态空间智能训练与推理模型

LLaDA2.0：蚂蚁集团开源的大参数扩散型生成式 AI 模型

开源大模型新标杆：DeepSeek-V3.2 凭何实现高效与智能双突破

DeepSeek-Math-V2：DeepSeek开源的可自我验证数学推理大语言模型

Emu3.5：北京智源开源的原生多模态世界模型

Z-Image Turbo Controlnet Union：阿里开源多条件控制 ControlNet 模型，低显存高效支持精准图像生成与编辑

MOSS-Speech：复旦大学开源的端到端语音大模型，无文本引导实现自然语音交互

Z-Image：阿里通义开源的轻量级AI图像生成与编辑模型，支持亚秒级推理与中英双语精准渲染

Depth Anything 3：字节跳动开源的全场景任意视图3D几何重建模型

HunyuanOCR：腾讯混元开源的轻量高效多模态OCR大模型，全场景多语种图文智能解析

Ruyi：CreateAI推出的开源图像转视频大模型，支持768分辨率与多维度视频控制

MiMo-Embodied：小米开源的7B跨具身视觉语言模型，打通自动驾驶与具身AI双领域推理