VibeVoice-ASR:微软开源的AI语音转文本工具,单遍处理60分钟长音频
VibeVoice-ASR是微软推出的开源语音转文本(ASR)模型,支持英语和中文双语言输入,具备单遍处理60分钟长音频的核心能力。该模型融合ASR、说话人分离与时间戳标注功能,可直...
VibeVoice-ASR是微软推出的开源语音转文本(ASR)模型,支持英语和中文双语言输入,具备单遍处理60分钟长音频的核心能力。该模型融合ASR、说话人分离与时间戳标注功能,可直...
PersonaPlex是NVIDIA研究团队于2026年1月开源的全双工实时语音对语音对话模型,基于Kyutai的Moshi架构与Helium语言模型构建,核心解决传统语音助手“听一次、答一次”的僵化...
Chroma 1.0是由FlashLabs开源的全球首款开源、实时、端到端口语对话模型,核心定位是解决传统语音交互系统“先转文字再生成语音”的繁琐流程,以及语音克隆效果差、延迟高的...
Being-H 是由BeingBeyond 团队开源的以人为中心的跨体化视觉 - 语言 - 动作(VLA)基础模型,核心聚焦于解决机器人学习中 “形态异构、数据稀缺、泛化能力弱” 的行业痛点,...
GLM-Image是由智谱AI与华为联合开源的工业级多模态图像生成模型,也是国内首个全程基于国产昇腾算力完成训练的SOTA级图像生成模型。该模型采用“90亿参数自回归生成器+70亿...
PaCoRe 全称Parallel Coordinated Reasoning,中文译为并行协同推理,是由阶跃星辰(stepfun-ai)团队开源的一款全新AI推理框架,核心定位是解决传统大模型推理时的两大核心...
NitroGen是由英伟达联合多所高校开源的通用游戏AI基础模型,核心定位是打造“通杀多类型游戏”的AI智能体,无需针对单款游戏定制训练,仅通过像素级游戏画面输入,就能精准...
Molmo2是由艾伦人工智能研究所(AllenAI) 研发并开源的一款先进多模态开放语言模型,旨在打破文本与视觉模态之间的壁垒,实现对图像、视频与文本信息的联合理解与处理。Mo...
VideoLLaMA3是由阿里巴巴达摩院新加坡NLP团队研发并开源的多模态基础模型,聚焦于图像与视频的内容理解与分析任务。作为VideoLLaMA系列模型的升级版本,该模型基于字节跳动...
Kaleido是由智谱AI、合肥工业大学、清华大学等机构联合研发的开源多主体参考视频生成模型,该模型支持512P分辨率视频生成,提供完整的训练、推理代码及预训练权重,适配Pyt...
Keye-VL是快手Keys团队面向多模态AI领域开源的高性能多模态大语言模型(VLM),全称为Kwai Keye-VL,是快手先进AI技术生态中的核心开源项目。该项目并非单一模型,而是包含...
STARFlow-V 是苹果团队研发的首款基于归一化流的因果视频生成模型,打破了视频生成领域扩散模型的技术垄断。该模型采用全局 - 局部架构实现时空特征解耦,结合流分数匹配去...
Mistral 3 是由 Mistral AI 开发的全规模开源多模态 AI 模型家族,该家族涵盖从 3B 参数的边缘轻量模型(Ministral 3 系列)到 675B 参数的云端旗舰模型(Mistral Large 3)...
BAGEL是字节跳动Seed团队开源的一款All-in-One多模态统一基础模型,具备7B活跃参数(总参数14B),采用创新的混合Transformer专家(MoT)架构,基于大规模交错式文本、图像...
WithAnyone是由复旦大学与阶跃星辰联合开源的多身份AI合照生成项目,基于FLUX扩散模型架构构建,核心解决传统人像生成中的“复制粘贴”伪影问题。该项目通过大规模配对数据...