Helios:北大开源的实时长视频生成模型,单卡19.5FPS实现分钟级高质量无漂移创作
Helios是北京大学YuanGroup开源的140亿参数实时长视频生成模型,无需传统抗漂移与加速技巧,即可在单张H100显卡实现19.5FPS端到端推理,支持文本/图像/视频驱动的分钟级高质...
Helios是北京大学YuanGroup开源的140亿参数实时长视频生成模型,无需传统抗漂移与加速技巧,即可在单张H100显卡实现19.5FPS端到端推理,支持文本/图像/视频驱动的分钟级高质...
RynnBrain是阿里巴巴达摩院开源的具身基础模型,以物理现实为锚点,面向机器人操作、视觉-语言导航、复杂任务规划等具身智能场景设计,具备时空定位、物理空间交错推理、物...
Anima是一款面向动漫与非写实艺术创作的20亿参数开源文本到图像(Text-to-Image)模型,由CircleStone Labs与Comfy Org联合研发,基于NVIDIA Cosmos架构构建,托管于Huggin...
ACE-Step 1.5是一款由ACE Studio与StepFun联合开发的开源音乐生成基础模型,主打在消费级硬件上实现商用级别的音乐生成能力,仅需4GB显存即可本地运行,兼具极速生成、多语...
SoulX-FlashTalk是由Soul AI Lab(Soul App人工智能实验室)联合东华大学研发并开源的实时音频驱动数字人无限流式生成模型,核心定位是解决传统数字人生成技术中“高画质必...
Qwen3-ASR是由阿里云通义千问(QwenLM)团队完全开源的一站式语音识别(ASR)与语音-文本强制对齐解决方案,基于Qwen3-Omni多模态大模型基座研发,是一套集语音转写、语言自...
MOVA是由OpenMOSS团队研发的开源音视频同步生成基础模型,其采用非对称双塔架构与双向交叉注意力机制,在多语言唇形同步、环境音效匹配上达到领先水平,全栈开放模型权重、...
HeartMuLa 是一套开源的多语言音乐基础模型项目,核心目标是构建全链路的音乐生成与音视频文本处理能力,为开发者、研究者和普通用户提供开箱即用的音乐 AI 工具集。它是首...
VibeVoice-ASR是微软推出的开源语音转文本(ASR)模型,支持英语和中文双语言输入,具备单遍处理60分钟长音频的核心能力。该模型融合ASR、说话人分离与时间戳标注功能,可直...
PersonaPlex是NVIDIA研究团队于2026年1月开源的全双工实时语音对语音对话模型,基于Kyutai的Moshi架构与Helium语言模型构建,核心解决传统语音助手“听一次、答一次”的僵化...
Chroma 1.0是由FlashLabs开源的全球首款开源、实时、端到端口语对话模型,核心定位是解决传统语音交互系统“先转文字再生成语音”的繁琐流程,以及语音克隆效果差、延迟高的...
Being-H 是由BeingBeyond 团队开源的以人为中心的跨体化视觉 - 语言 - 动作(VLA)基础模型,核心聚焦于解决机器人学习中 “形态异构、数据稀缺、泛化能力弱” 的行业痛点,...
GLM-Image是由智谱AI与华为联合开源的工业级多模态图像生成模型,也是国内首个全程基于国产昇腾算力完成训练的SOTA级图像生成模型。该模型采用“90亿参数自回归生成器+70亿...
PaCoRe 全称Parallel Coordinated Reasoning,中文译为并行协同推理,是由阶跃星辰(stepfun-ai)团队开源的一款全新AI推理框架,核心定位是解决传统大模型推理时的两大核心...
NitroGen是由英伟达联合多所高校开源的通用游戏AI基础模型,核心定位是打造“通杀多类型游戏”的AI智能体,无需针对单款游戏定制训练,仅通过像素级游戏画面输入,就能精准...