Wan Streamer:阿里通义万相推出的亚秒级同步AI视频通话基础模型
一、Wan Streamer是什么
Wan Streamer是阿里巴巴通义实验室Wan团队发布的原生流式、端到端全双工实时音视频交互基础模型,当前v0.1为概念验证原型版本,输出分辨率192p,仅用于验证端到端流式交互技术路线,暂未开源权重与工程代码,仅对外提供预录制中英文虚拟人对话演示视频、实时联网对话录屏。
传统AI交互系统采用ASR、LLM、TTS、数字人渲染多模块拼接架构,存在延迟高、音画不同步、无法实时打断对话等痛点;而Wan Streamer开创性使用单一完整Transformer统一建模文本、音频、视频的输入与输出,无需外置识别、语音合成、动画渲染模块,可模拟人类真实视频通话,支持边听、边看、边思考、边回应,AI回复过程中持续感知用户画面与语音,支持随时插话打断交互。

二、功能特色
单模型一体化全模态交互
摒弃多模块级联流水线,文本、音频、视频感知与生成全部在同一个Transformer内完成,无外部VAD、语音识别、大语言、语音合成、动画生成组件,从底层消除多模块数据传输带来的同步误差。原生全双工实时对话
复刻人类对话逻辑,AI输出虚拟人回应时持续捕捉用户表情、语音,支持实时打断、中途调整回复内容,打破传统AI“一问一答”回合制交互限制。极致低延迟亚秒级响应
模型原生处理延迟仅200ms,叠加350ms双向网络传输延迟后,完整端到端交互总时延约550ms,稳定实现1秒以内音视频对话反馈。25fps流畅同步音视频输出
固定25fps视频生成帧率,最小流式处理单元仅160ms,语音、虚拟人面部神态、肢体动作原生同步,不存在口型错位、声音画面脱节问题。多语言、多人物、多场景自适应生成
同一模型可生成不同性别、音色、外貌的虚拟人,支持中文、英文双语实时对话,适配居家、车内、室内办公等多种视频通话场景。分布式低延迟推理部署方案
自研Thinker–Performer双GPU并行推理架构,感知、解码、音视频生成流水线并行执行,硬件资源利用率大幅提升,保障长时间稳定实时交互。
三、技术细节
3.1 整体架构:统一交错因果序列建模
模型将用户输入(文本/音频/视频token)与AI输出(文本/音频/视频token)交错拼接为一条连续因果序列,依靠块因果注意力(block-causal attention) 实现增量流式生成,仅使用当前与历史信息做预测,不依赖未来帧数据,满足实时流式处理约束。
全链路全部采用因果化组件:因果音视频VAE、因果编码器、因果解码器,新采集的用户画面、语音可即时编码进入上下文,无需等待完整片段,支撑160ms短粒度流式单元。
3.2 音视频联合生成方案
文本采用传统离散token自回归预测训练;音频、视频映射至连续隐空间,使用条件流匹配(Flow Matching) 联合降噪生成,语音、人脸动作、画面同步优化,避免生成后二次对齐修复带来的延迟与失真。所有生成隐变量直接追加至对话上下文,持续更新交互历史状态。
3.3 Thinker–Performer双GPU推理架构(部署核心)
模型训练时为单一完整Transformer,线上实时推理拆分为两大模块跨两张GPU并行计算,互不阻塞:
Thinker(思考端):负责用户音视频编码、KV缓存更新、上一轮音视频解码输出、语言语义推理;
Performer(生成端):仅运行音视频隐空间流匹配求解器,专注下一帧虚拟人画面、语音生成;
两端共享统一KV缓存上下文,感知、解码、隐变量生成、网络通信在相邻流式单元流水线重叠执行,搭配CUDA Graph捕获、算子编译优化,稳定控制200ms模型侧延迟。
3.4 全双工交互底层逻辑
实时交互被建模为无限连续因果流,感知与生成进程同步运行:用户说话时,虚拟人同步生成倾听神态;AI回复过程中,持续识别用户打断信号并立刻调整输出内容,输入音视频数据流实时影响输出语音与面部动作。
四、应用场景
实时虚拟人客服
线上视频客服、直播数字人接待,支持用户随时插话咨询,虚拟人同步口型动作,低延迟交互提升客户沟通真实感。AI远程陪伴对话
中英文双语虚拟陪伴、情绪倾诉、日常闲聊,适配居家视频通话场景,生成自然真人神态与情绪语音。线上教育虚拟助教
一对一实时视频教学,学生可随时打断提问,虚拟助教同步讲解、配合表情动作,亚秒级反馈不打断课堂节奏。数字人直播互动
实时直播虚拟主播,同步识别观众连麦画面、语音,即时回应互动,解决传统数字人高延迟、无法实时打断问题。智能终端实时交互助手
车载、智能家居视频交互AI,车内场景低延迟音视频对话,实时响应用户指令并展示虚拟形象。
五、常见问题解答(FAQ)
Q1:Wan Streamer v0.1是否开源?可以本地部署吗?
A:当前v0.1属于概念验证研究原型,未开源模型权重、训练代码与推理工程,暂时不支持个人本地部署;官方仅开放演示视频与学术论文供行业研究参考。
Q2:Wan Streamer和普通数字人直播系统最大区别是什么?
A:传统数字人是多模块拼接,语音识别、大模型、语音合成、动画渲染分属独立组件,每一层都会叠加延迟、音画易错位;Wan Streamer只用一个Transformer统一处理全部流程,原生全双工可实时打断,总延迟控制在0.6秒内,音画同步由模型底层联合优化。
Q3:Wan Streamer的200ms延迟是指什么?包含网络延迟吗?
A:200ms为纯模型侧处理延迟,仅计算编码、推理、音视频生成解码耗时;叠加350ms双向网络传输延迟后,用户实际感知到的完整交互总延迟约550ms。
Q4:Wan Streamer支持哪些语言,虚拟人形象能否自定义?
A:目前原生支持中文、英文双语交互;v0.1版本内置多套预设虚拟人男女形象、音色,论文未开放自定义形象训练接口,自定义形象属于后续迭代规划内容。
Q5:Wan Streamer v0.1分辨率只有192p,画质为什么不高?
A:v0.1核心目标是验证端到端流式全双工交互技术路线,并非商用高画质版本;官方文档说明架构可轻松扩展更高分辨率,高清版本为后续迭代方向。
Q6:全双工交互具体是什么功能,实际使用有什么优势?
A:全双工指AI生成回应的同时持续感知用户画面、语音,用户可中途插话、打断AI发言;传统回合制AI必须等AI说完才能提问,交互生硬,而Wan Streamer对话逻辑贴近真人视频通话,沟通更自然。
六、相关链接
Wan Streamer官方网站:https://wan-streamer.com/
学术论文arXiv原文地址:https://arxiv.org/abs/2606.25041
七、总结
Wan Streamer是业内首款基于单一Transformer架构打造的原生流式端到端全双工实时音视频交互基础模型,彻底打破传统多模块拼接AI交互系统的延迟高、音画不同步、无法实时打断的行业瓶颈,依靠因果流式建模、条件流匹配音视频联合生成、Thinker–Performer分布式推理三大核心技术,实现200ms模型侧低延迟与亚秒级完整交互反馈,同时原生支持视频感知、同步虚拟人输出、双语实时对话,为实时虚拟客服、AI陪伴、线上教育、数字人直播等场景提供全新底层技术方案,为全双工多模态实时交互模型建立了完整可行的技术验证路线。
版权及免责申明:本文由@97ai原创发布。该文章观点仅代表作者本人,不代表本站立场。本站不承担任何相关法律责任。
如若转载,请注明出处:https://www.aipuzi.cn/ai-news/wan-streamer.html

