语音生成

Qwen3-TTS是通义千问开源的一站式多语言语音生成模型全家桶，基于自研Qwen3大模型体系构建，采用离散多码本LM架构与Dual-Track双轨流式生成技术，实现语音克隆、语音设计、...

Ming-UniAudio是一个创新的开源框架，旨在统一语音理解、生成和编辑任务。通过基于VAE框架和因果Transformer架构的统一连续语音tokenizer（MingTok-Audio），它能够有效整合...

近日，微软AI团队宣布推出两款自主研发的创新模型——MAI-Voice-1语音生成模型与MAI-1-preview基础模型，这一举措不仅彰显了其在AI领域的深厚技术积淀，更预示着智能交互体...

语音生成新闻、工具、教程及资源推荐