开源AI模型

Mega-ASR：开源高鲁棒语音识别模型，适配全场景恶劣环境语音转写

Mega-ASR是一款主打全场景恶劣环境的开源自动语音识别模型，依托海量实景语音数据与声学语义渐进微调技术，有效解决噪声、远场、混响失真音频识别难题，具备低幻觉高精准转...

2个月前 AI新闻

111

Stable Audio 3：开源AI音频生成模型，多风格音乐音效创作与音频修复工具

Stable Audio 3是Stability AI研发的开源AI音频生成项目，支持文本生成音乐音效、音频片段修复续写，搭载多款梯度模型，兼容多类硬件设备，具备LoRA风格微调能力，提供网页...

2个月前 AI新闻

133

Hy-MT2：腾讯混元开源的快思考多语种翻译模型，支持33种语言互译与指令定制翻译

Hy-MT2是腾讯混元开源的快思考多语种翻译模型家族，拥有1.8B、7B、30B-A3B多规格版本，支持33种语言双向翻译与七类指令定制翻译，搭载AngelSlim极致量化技术，体积小巧适配...

2个月前 AI新闻

152

Hy-MT1.5-1.8B-1.25bit：腾讯混元开源的1.25bit极致量化离线多语言翻译模型

Hy-MT1.5-1.8B-1.25bit 是由腾讯混元团队联合 AngelSlim 共同推出的超轻量化端侧离线多语言翻译大模型，基于腾讯原生 HY-MT1.5-1.8B 翻译底座模型，采用自研 Sherry 三值量...

2个月前 AI新闻

125

TIPSv2：谷歌 DeepMind 开源的多模态编码器，强化 Patch-Text 对齐与空间感知

TIPSv2是谷歌DeepMind推出的第二代空间感知型文本-图像预训练编码器，收录于CVPR 2026，核心解决多模态模型全局理解强、局部定位弱的痛点。通过iBOT++全区域监督、Head-onl...

2个月前 AI新闻

163

Wav2Lip：开源AI唇形同步工具，精准实现音视频口型匹配与多语言适配

Wav2Lip是2020年由印度IIIT-H团队推出的开源AI唇形同步模型，基于GAN与SyncNet架构，可对任意人脸视频/静态图与任意语言音频实现毫秒级精准口型匹配，保留原始画面质感，广...

2个月前 AI新闻

509

Audio Flamingo Next：NVIDIA开源长音频理解大模型，支持30分钟全域音频智能分析

Audio Flamingo Next（AF-Next）是NVIDIA与马里兰大学联合发布的新一代开源大型音频语言模型，支持30分钟长音频输入与128K上下文窗口，首创时序音频思维链技术，精准锚定时...

3个月前 AI新闻

158

Harrier-OSS-v1：微软开源的多语言文本嵌入模型，长上下文与跨语言语义能力拉满

Harrier-OSS-v1是微软研究院开源的多语言文本嵌入模型家族，包含270M、0.6B、27B三档参数规模，采用decoder-only架构、last-token pooling与L2归一化，最长支持32768 token...

3个月前 AI新闻

397

Matrix-Game 3.0：昆仑万维推出的工业级实时交互世界模型，长时记忆驱动高保真虚拟世界生成

Matrix-Game 3.0是昆仑万维旗下天工AI研发的工业级实时流式交互式世界模型，是首个实现长时序一致性、720p高分辨率、实时交互三者统一的开源世界模型。该模型基于扩散Trans...

3个月前 AI新闻

183

InternVL-U：上海AI Lab开源的4B参数轻量级统一多模态模型

InternVL-U是由上海人工智能实验室OpenGVLab团队推出的40亿参数轻量级统一多模态开源模型，在单一框架内融合多模态理解、逻辑推理、图像生成、图像编辑四大核心能力，以“统...

4个月前 AI新闻

146

Helios：北大开源的实时长视频生成模型，单卡19.5FPS实现分钟级高质量无漂移创作

Helios是北京大学YuanGroup开源的140亿参数实时长视频生成模型，无需传统抗漂移与加速技巧，即可在单张H100显卡实现19.5FPS端到端推理，支持文本/图像/视频驱动的分钟级高质...

4个月前 AI新闻

289

RynnBrain：阿里巴巴达摩院推出的开源具身智能基础模型

RynnBrain是阿里巴巴达摩院开源的具身基础模型，以物理现实为锚点，面向机器人操作、视觉-语言导航、复杂任务规划等具身智能场景设计，具备时空定位、物理空间交错推理、物...

5个月前 AI新闻

279

Anima：CircleStone Labs 与 Comfy Org 联合开源的20 亿参数动漫风格 AI 绘画模型

Anima是一款面向动漫与非写实艺术创作的20亿参数开源文本到图像（Text-to-Image）模型，由CircleStone Labs与Comfy Org联合研发，基于NVIDIA Cosmos架构构建，托管于Huggin...

5个月前 AI新闻

1072

ACE-Step 1.5：ACE Studio与StepFun联合开源的AI音乐生成模型，4GB显存即可生成专业级音频

ACE-Step 1.5是一款由ACE Studio与StepFun联合开发的开源音乐生成基础模型，主打在消费级硬件上实现商用级别的音乐生成能力，仅需4GB显存即可本地运行，兼具极速生成、多语...

5个月前 AI新闻

291

SoulX-FlashTalk：Soul AI Lab开源的实时音频驱动数字人模型

SoulX-FlashTalk是由Soul AI Lab（Soul App人工智能实验室）联合东华大学研发并开源的实时音频驱动数字人无限流式生成模型，核心定位是解决传统数字人生成技术中“高画质必...

5个月前 AI新闻

515

开源AI模型新闻、工具、教程及资源推荐

Mega-ASR：开源高鲁棒语音识别模型，适配全场景恶劣环境语音转写

Stable Audio 3：开源AI音频生成模型，多风格音乐音效创作与音频修复工具

Hy-MT2：腾讯混元开源的快思考多语种翻译模型，支持33种语言互译与指令定制翻译

Hy-MT1.5-1.8B-1.25bit：腾讯混元开源的1.25bit极致量化离线多语言翻译模型

TIPSv2：谷歌 DeepMind 开源的多模态编码器，强化 Patch-Text 对齐与空间感知

Wav2Lip：开源AI唇形同步工具，精准实现音视频口型匹配与多语言适配

Audio Flamingo Next：NVIDIA开源长音频理解大模型，支持30分钟全域音频智能分析

Harrier-OSS-v1：微软开源的多语言文本嵌入模型，长上下文与跨语言语义能力拉满

Matrix-Game 3.0：昆仑万维推出的工业级实时交互世界模型，长时记忆驱动高保真虚拟世界生成

InternVL-U：上海AI Lab开源的4B参数轻量级统一多模态模型

Helios：北大开源的实时长视频生成模型，单卡19.5FPS实现分钟级高质量无漂移创作

RynnBrain：阿里巴巴达摩院推出的开源具身智能基础模型

Anima：CircleStone Labs 与 Comfy Org 联合开源的20 亿参数动漫风格 AI 绘画模型

ACE-Step 1.5：ACE Studio与StepFun联合开源的AI音乐生成模型，4GB显存即可生成专业级音频

SoulX-FlashTalk：Soul AI Lab开源的实时音频驱动数字人模型