开源AI模型

Mage-Flow：微软开源的4B整流流图像生成模型

Mage-Flow 是微软亚洲研究院开源的基于 Rectified Flow（整流流）架构的4B参数多模态图像生成模型，项目依托全新 NR-MMDiT 扩散Transformer结构，搭配自研轻量化 Mage-VAE ...

1天前 AI新闻

68

Qwen-Image-3.0：阿里千问推出的第三代AI图像生成模型

Qwen-Image-3.0是阿里2026年7月21日发布的第三代图像生成基础模型，支持4.5k token超长输入、10px小字精准渲染、12国语言和20余款字体，可一键生成九宫格知识图解、复杂UI、...

3天前 AI新闻

74

MuScriptor：开源AI多乐器音频转录模型，混音音乐自动识别生成多声部MIDI

MuScriptor 是由 Kyutai 与 Mirelo 联合开源的混音音频多乐器自动转录项目，它是依托17万首覆盖古典、摇滚、重金属、流行等多元曲风真实音乐数据集训练而成的AI模型，核心目...

3天前 AI新闻

69

ABot-World：高德开源的交互式世界模型，单RTX5090显卡实现无限长时序实时场景推演

ABot-World 是高德地图CV实验室（amap-cvlab）开源的单桌面GPU无限交互式世界推演模型，核心版本为5B因果学生模型 ABot-World-0-5B-LF，配套开放本地Gradio演示程序与线上交...

7天前 AI新闻

81

Xiaomi-Robotics-U0：小米发布的开源机器人仿真数据生成AI模型

Xiaomi-Robotics-U0是小米机器人实验室38B参数自回归世界基础模型，统一文生图、图像编辑、多视角场景、具身迁移、机器人交互视频生成，搭载FlashAR高速推理，完整开源，适...

1周前 AI新闻

74

Wan-Dancer：通义万相开源的音频驱动长时长舞蹈视频生成模型

Wan-Dancer 是由 Wan-Video（通义万相）团队开源的分层式长时长音乐转舞蹈视频生成框架，依托Wan2.1、DiffSynth-Studio两大自研项目搭建，可直接根据输入音乐、人物参考图、...

1周前 AI新闻

71

LingBot-Vision：蚂蚁灵波开源的面向具身智能的稠密特征提取视觉基础模型

LingBot-Vision是蚂蚁灵波开源自研自监督ViT视觉骨干套件，首创掩码边界建模，专为密集空间感知打造，配套LingBot-Depth2.0深度模型，支持深度估计、语义分割、视频分割、深...

2周前 AI新闻

80

TabFM：谷歌开源表格基础模型，零样本无需训练快速完成表格分类回归预测

TabFM 全称 Tabular Foundation Model（表格基础模型），由 Google Research 开源发布，是一款完全兼容 scikit-learn 生态的结构化表格专用基础模型，当前稳定版本为 v1.0....

2周前 AI新闻

84

VibeThinker-3B：新浪微博开源的30亿参数数学算法竞赛推理AI模型

VibeThinker-3B 是新浪微博AI（WeiboAI）团队推出的3B参数轻量化专用推理大模型，基于Qwen2.5-Coder-3B基座微调训练，2026年6月16日开源发布，遵循MIT开源协议，支持免费商...

3周前 AI新闻

86

Unlimited-OCR：百度开源长文档OCR模型，单次推理批量解析数十页PDF文档

Unlimited-OCR是百度开源的端到端长文档OCR多模态模型，基于Deepseek-OCR迭代升级，主打单次前向传播一次性完成数十页长文档连贯解析，官方定位为「One-shot Long-horizon ...

4周前 AI新闻

135

SCAIL-2：智谱AI开源的端到端角色动画模型

SCAIL-2是智谱AI开源的端到端可控角色动画生成框架，无需骨骼、蒙版等中间素材，依托上下文条件技术实现真人、虚拟人、动物的动作迁移，搭配Bias-Aware DPO优化细节表现，支...

1个月前 AI新闻

142

Bernini：字节跳动开源的轻量化AI视频生成编辑框架

Bernini是字节跳动自研、基于Apache2.0开源协议发布的一站式AI视频生成与视频编辑框架，项目命名取自意大利著名雕塑大师贝尼尼，寓意模型具备精细化画面塑造、影视级内容创...

1个月前 AI新闻

147

Cosmos 3：英伟达开源的多模态物理AI世界基础模型

Cosmos 3是英伟达（NVIDIA）完全开源的全模态物理AI基础模型，采用创新混合Transformer架构，原生集成视觉推理、世界生成与动作预测能力，可理解并生成文本、图像、视频、环...

1个月前 AI新闻

159

Wall-X：开源具身智能机器人模型，集成视觉语言动作全链路交互

Wall-X 是由 X-Square-Robot 团队在 GitHub 开源的一套端到端具身智能机器人基础模型工程体系，核心依托自研 WALL-OSS 模型，搭建起从数据采集、模型训练、算法推理到真机部...

1个月前 AI新闻

120

BitCPM-CANN：面壁智能推出的国产算力端侧大模型

BitCPM-CANN是面壁智能联合清华、OpenBMB开源的国产昇腾原生1.58-bit三值大模型，覆盖0.5B-8B尺寸，显存压缩10倍、能力保留率90%-97%，适配手机、边缘设备等端侧场景，实现...

1个月前 AI新闻

114

开源AI模型新闻、工具、教程及资源推荐

Mage-Flow：微软开源的4B整流流图像生成模型

Qwen-Image-3.0：阿里千问推出的第三代AI图像生成模型

MuScriptor：开源AI多乐器音频转录模型，混音音乐自动识别生成多声部MIDI

ABot-World：高德开源的交互式世界模型，单RTX5090显卡实现无限长时序实时场景推演

Xiaomi-Robotics-U0：小米发布的开源机器人仿真数据生成AI模型

Wan-Dancer：通义万相开源的音频驱动长时长舞蹈视频生成模型

LingBot-Vision：蚂蚁灵波开源的面向具身智能的稠密特征提取视觉基础模型

TabFM：谷歌开源表格基础模型，零样本无需训练快速完成表格分类回归预测

VibeThinker-3B：新浪微博开源的30亿参数数学算法竞赛推理AI模型

Unlimited-OCR：百度开源长文档OCR模型，单次推理批量解析数十页PDF文档

SCAIL-2：智谱AI开源的端到端角色动画模型

Bernini：字节跳动开源的轻量化AI视频生成编辑框架

Cosmos 3：英伟达开源的多模态物理AI世界基础模型

Wall-X：开源具身智能机器人模型，集成视觉语言动作全链路交互

BitCPM-CANN：面壁智能推出的国产算力端侧大模型