Audio Flamingo Next:NVIDIA开源长音频理解大模型,支持30分钟全域音频智能分析
Audio Flamingo Next(AF-Next)是NVIDIA与马里兰大学联合发布的新一代开源大型音频语言模型,支持30分钟长音频输入与128K上下文窗口,首创时序音频思维链技术,精准锚定时...
Audio Flamingo Next(AF-Next)是NVIDIA与马里兰大学联合发布的新一代开源大型音频语言模型,支持30分钟长音频输入与128K上下文窗口,首创时序音频思维链技术,精准锚定时...
Harrier-OSS-v1是微软研究院开源的多语言文本嵌入模型家族,包含270M、0.6B、27B三档参数规模,采用decoder-only架构、last-token pooling与L2归一化,最长支持32768 token...
Matrix-Game 3.0是昆仑万维旗下天工AI研发的工业级实时流式交互式世界模型,是首个实现长时序一致性、720p高分辨率、实时交互三者统一的开源世界模型。该模型基于扩散Trans...
InternVL-U是由上海人工智能实验室OpenGVLab团队推出的40亿参数轻量级统一多模态开源模型,在单一框架内融合多模态理解、逻辑推理、图像生成、图像编辑四大核心能力,以“统...
Helios是北京大学YuanGroup开源的140亿参数实时长视频生成模型,无需传统抗漂移与加速技巧,即可在单张H100显卡实现19.5FPS端到端推理,支持文本/图像/视频驱动的分钟级高质...
RynnBrain是阿里巴巴达摩院开源的具身基础模型,以物理现实为锚点,面向机器人操作、视觉-语言导航、复杂任务规划等具身智能场景设计,具备时空定位、物理空间交错推理、物...
Anima是一款面向动漫与非写实艺术创作的20亿参数开源文本到图像(Text-to-Image)模型,由CircleStone Labs与Comfy Org联合研发,基于NVIDIA Cosmos架构构建,托管于Huggin...
ACE-Step 1.5是一款由ACE Studio与StepFun联合开发的开源音乐生成基础模型,主打在消费级硬件上实现商用级别的音乐生成能力,仅需4GB显存即可本地运行,兼具极速生成、多语...
SoulX-FlashTalk是由Soul AI Lab(Soul App人工智能实验室)联合东华大学研发并开源的实时音频驱动数字人无限流式生成模型,核心定位是解决传统数字人生成技术中“高画质必...
Qwen3-ASR是由阿里云通义千问(QwenLM)团队完全开源的一站式语音识别(ASR)与语音-文本强制对齐解决方案,基于Qwen3-Omni多模态大模型基座研发,是一套集语音转写、语言自...
MOVA是由OpenMOSS团队研发的开源音视频同步生成基础模型,其采用非对称双塔架构与双向交叉注意力机制,在多语言唇形同步、环境音效匹配上达到领先水平,全栈开放模型权重、...
HeartMuLa 是一套开源的多语言音乐基础模型项目,核心目标是构建全链路的音乐生成与音视频文本处理能力,为开发者、研究者和普通用户提供开箱即用的音乐 AI 工具集。它是首...
VibeVoice-ASR是微软推出的开源语音转文本(ASR)模型,支持英语和中文双语言输入,具备单遍处理60分钟长音频的核心能力。该模型融合ASR、说话人分离与时间戳标注功能,可直...
PersonaPlex是NVIDIA研究团队于2026年1月开源的全双工实时语音对语音对话模型,基于Kyutai的Moshi架构与Helium语言模型构建,核心解决传统语音助手“听一次、答一次”的僵化...
Chroma 1.0是由FlashLabs开源的全球首款开源、实时、端到端口语对话模型,核心定位是解决传统语音交互系统“先转文字再生成语音”的繁琐流程,以及语音克隆效果差、延迟高的...