VibeVoice-ASR:微软开源的AI语音转文本工具,单遍处理60分钟长音频
VibeVoice-ASR是微软推出的开源语音转文本(ASR)模型,支持英语和中文双语言输入,具备单遍处理60分钟长音频的核心能力。该模型融合ASR、说话人分离与时间戳标注功能,可直...
VibeVoice-ASR是微软推出的开源语音转文本(ASR)模型,支持英语和中文双语言输入,具备单遍处理60分钟长音频的核心能力。该模型融合ASR、说话人分离与时间戳标注功能,可直...
Qwen3-TTS是通义千问开源的一站式多语言语音生成模型全家桶,基于自研Qwen3大模型体系构建,采用离散多码本LM架构与Dual-Track双轨流式生成技术,实现语音克隆、语音设计、...
STEP3-VL-10B是阶跃星辰(StepFun AI)开源的轻量级多模态基础大模型,核心定位是在10B(100亿)参数的紧凑规模下,实现高效性与前沿多模态智能的极致平衡,打破“参数越大...
GLM-4.7-Flash 是由智谱科技开源的轻量化混合专家(MoE)大语言模型,总参数量达 30B,推理时仅激活 3B 参数,实现了高性能与低资源消耗的平衡。该模型支持 200K 长上下文窗...
PersonaPlex是NVIDIA研究团队于2026年1月开源的全双工实时语音对语音对话模型,基于Kyutai的Moshi架构与Helium语言模型构建,核心解决传统语音助手“听一次、答一次”的僵化...
VerseCrafter是由复旦大学、香港大学与腾讯ARC Lab联合研发的开源动态真实视频世界模型,核心突破传统视频生成的几何不可控瓶颈,实现对相机运动、多目标3D轨迹及二者协同关...
Chroma 1.0是由FlashLabs开源的全球首款开源、实时、端到端口语对话模型,核心定位是解决传统语音交互系统“先转文字再生成语音”的繁琐流程,以及语音克隆效果差、延迟高的...
Being-H 是由BeingBeyond 团队开源的以人为中心的跨体化视觉 - 语言 - 动作(VLA)基础模型,核心聚焦于解决机器人学习中 “形态异构、数据稀缺、泛化能力弱” 的行业痛点,...
LightOnOCR-2-1B 是由 LightOnAI 开源的端到端多语言视觉 - 语言 OCR 模型,仅含 10 亿参数,却实现了当前业界领先的识别性能。该模型打破传统多阶段 OCR 流水线的局限,可...
MTranServer 是一款开源的离线翻译服务器解决方案,基于优化的神经网络翻译模型构建,无需显卡支持即可在普通 CPU 设备上流畅运行。其核心优势在于超低资源消耗、50毫秒级极...