AI新闻资讯 - 最新人工智能技术动态与热点资讯

VibeVoice-ASR：微软开源的AI语音转文本工具，单遍处理60分钟长音频

VibeVoice-ASR是微软推出的开源语音转文本（ASR）模型，支持英语和中文双语言输入，具备单遍处理60分钟长音频的核心能力。该模型融合ASR、说话人分离与时间戳标注功能，可直...

1个月前 AI工具集

167

Qwen3-TTS：通义千问开源的AI语音合成模型，实现多语种语音生成与定制化音色创作

Qwen3-TTS是通义千问开源的一站式多语言语音生成模型全家桶，基于自研Qwen3大模型体系构建，采用离散多码本LM架构与Dual-Track双轨流式生成技术，实现语音克隆、语音设计、...

1个月前 AI工具箱

195

Step3-VL-10B：阶跃星辰开源的10B参数轻量多模态基础模型

STEP3-VL-10B是阶跃星辰（StepFun AI）开源的轻量级多模态基础大模型，核心定位是在10B（100亿）参数的紧凑规模下，实现高效性与前沿多模态智能的极致平衡，打破“参数越大...

1个月前人工智能研究所

86

GLM-4.7-Flash：智谱开源的 30B 级轻量化混合专家模型，支持本地部署与多场景应用

GLM-4.7-Flash 是由智谱科技开源的轻量化混合专家（MoE）大语言模型，总参数量达 30B，推理时仅激活 3B 参数，实现了高性能与低资源消耗的平衡。该模型支持 200K 长上下文窗...

1个月前 AI铺子

185

PersonaPlex：英伟达开源的全双工实时语音对话模型，支持角色定制与自然打断交互

PersonaPlex是NVIDIA研究团队于2026年1月开源的全双工实时语音对语音对话模型，基于Kyutai的Moshi架构与Helium语言模型构建，核心解决传统语音助手“听一次、答一次”的僵化...

1个月前 97ai

121

VerseCrafter：复旦、港大&腾讯联合开源的 4D 几何可控的动态真实视频世界模型

VerseCrafter是由复旦大学、香港大学与腾讯ARC Lab联合研发的开源动态真实视频世界模型，核心突破传统视频生成的几何不可控瓶颈，实现对相机运动、多目标3D轨迹及二者协同关...

1个月前 dotaai

99

Chroma 1.0：FlashLabs 推出的开源实时语音 AI 模型，实现低延迟对话与语音克隆

Chroma 1.0是由FlashLabs开源的全球首款开源、实时、端到端口语对话模型，核心定位是解决传统语音交互系统“先转文字再生成语音”的繁琐流程，以及语音克隆效果差、延迟高的...

1个月前 AI工具集

121

Being-H：BeingBeyond 推出的开源跨体化 VLA 基础模型

Being-H 是由BeingBeyond 团队开源的以人为中心的跨体化视觉 - 语言 - 动作（VLA）基础模型，核心聚焦于解决机器人学习中 “形态异构、数据稀缺、泛化能力弱” 的行业痛点，...

1个月前 AI工具箱

81

LightOnOCR-2-1B：LightOnAI开源的10 亿参数开源端到端 OCR 模型

LightOnOCR-2-1B 是由 LightOnAI 开源的端到端多语言视觉 - 语言 OCR 模型，仅含 10 亿参数，却实现了当前业界领先的识别性能。该模型打破传统多阶段 OCR 流水线的局限，可...