Wan Streamer：阿里通义万相推出的亚秒级同步AI视频通话基础模型

原创发布日期：2026-07-01

一、Wan Streamer是什么

Wan Streamer是阿里巴巴通义实验室Wan团队发布的原生流式、端到端全双工实时音视频交互基础模型，当前v0.1为概念验证原型版本，输出分辨率192p，仅用于验证端到端流式交互技术路线，暂未开源权重与工程代码，仅对外提供预录制中英文虚拟人对话演示视频、实时联网对话录屏。

传统AI交互系统采用ASR、LLM、TTS、数字人渲染多模块拼接架构，存在延迟高、音画不同步、无法实时打断对话等痛点；而Wan Streamer开创性使用单一完整Transformer统一建模文本、音频、视频的输入与输出，无需外置识别、语音合成、动画渲染模块，可模拟人类真实视频通话，支持边听、边看、边思考、边回应，AI回复过程中持续感知用户画面与语音，支持随时插话打断交互。

二、功能特色

单模型一体化全模态交互
摒弃多模块级联流水线，文本、音频、视频感知与生成全部在同一个Transformer内完成，无外部VAD、语音识别、大语言、语音合成、动画生成组件，从底层消除多模块数据传输带来的同步误差。
原生全双工实时对话
复刻人类对话逻辑，AI输出虚拟人回应时持续捕捉用户表情、语音，支持实时打断、中途调整回复内容，打破传统AI“一问一答”回合制交互限制。
极致低延迟亚秒级响应
模型原生处理延迟仅200ms，叠加350ms双向网络传输延迟后，完整端到端交互总时延约550ms，稳定实现1秒以内音视频对话反馈。
25fps流畅同步音视频输出
固定25fps视频生成帧率，最小流式处理单元仅160ms，语音、虚拟人面部神态、肢体动作原生同步，不存在口型错位、声音画面脱节问题。
多语言、多人物、多场景自适应生成
同一模型可生成不同性别、音色、外貌的虚拟人，支持中文、英文双语实时对话，适配居家、车内、室内办公等多种视频通话场景。
分布式低延迟推理部署方案
自研Thinker–Performer双GPU并行推理架构，感知、解码、音视频生成流水线并行执行，硬件资源利用率大幅提升，保障长时间稳定实时交互。

三、技术细节

3.1 整体架构：统一交错因果序列建模

模型将用户输入（文本/音频/视频token）与AI输出（文本/音频/视频token）交错拼接为一条连续因果序列，依靠块因果注意力（block-causal attention） 实现增量流式生成，仅使用当前与历史信息做预测，不依赖未来帧数据，满足实时流式处理约束。

全链路全部采用因果化组件：因果音视频VAE、因果编码器、因果解码器，新采集的用户画面、语音可即时编码进入上下文，无需等待完整片段，支撑160ms短粒度流式单元。

3.2 音视频联合生成方案

文本采用传统离散token自回归预测训练；音频、视频映射至连续隐空间，使用条件流匹配（Flow Matching） 联合降噪生成，语音、人脸动作、画面同步优化，避免生成后二次对齐修复带来的延迟与失真。所有生成隐变量直接追加至对话上下文，持续更新交互历史状态。

3.3 Thinker–Performer双GPU推理架构（部署核心）

模型训练时为单一完整Transformer，线上实时推理拆分为两大模块跨两张GPU并行计算，互不阻塞：

Thinker（思考端）：负责用户音视频编码、KV缓存更新、上一轮音视频解码输出、语言语义推理；
Performer（生成端）：仅运行音视频隐空间流匹配求解器，专注下一帧虚拟人画面、语音生成；
两端共享统一KV缓存上下文，感知、解码、隐变量生成、网络通信在相邻流式单元流水线重叠执行，搭配CUDA Graph捕获、算子编译优化，稳定控制200ms模型侧延迟。

3.4 全双工交互底层逻辑

实时交互被建模为无限连续因果流，感知与生成进程同步运行：用户说话时，虚拟人同步生成倾听神态；AI回复过程中，持续识别用户打断信号并立刻调整输出内容，输入音视频数据流实时影响输出语音与面部动作。

四、应用场景

实时虚拟人客服
线上视频客服、直播数字人接待，支持用户随时插话咨询，虚拟人同步口型动作，低延迟交互提升客户沟通真实感。
AI远程陪伴对话
中英文双语虚拟陪伴、情绪倾诉、日常闲聊，适配居家视频通话场景，生成自然真人神态与情绪语音。
线上教育虚拟助教
一对一实时视频教学，学生可随时打断提问，虚拟助教同步讲解、配合表情动作，亚秒级反馈不打断课堂节奏。
数字人直播互动
实时直播虚拟主播，同步识别观众连麦画面、语音，即时回应互动，解决传统数字人高延迟、无法实时打断问题。
智能终端实时交互助手
车载、智能家居视频交互AI，车内场景低延迟音视频对话，实时响应用户指令并展示虚拟形象。

五、常见问题解答（FAQ）

Q1：Wan Streamer v0.1是否开源？可以本地部署吗？

A：当前v0.1属于概念验证研究原型，未开源模型权重、训练代码与推理工程，暂时不支持个人本地部署；官方仅开放演示视频与学术论文供行业研究参考。

Q2：Wan Streamer和普通数字人直播系统最大区别是什么？

A：传统数字人是多模块拼接，语音识别、大模型、语音合成、动画渲染分属独立组件，每一层都会叠加延迟、音画易错位；Wan Streamer只用一个Transformer统一处理全部流程，原生全双工可实时打断，总延迟控制在0.6秒内，音画同步由模型底层联合优化。

Q3：Wan Streamer的200ms延迟是指什么？包含网络延迟吗？

A：200ms为纯模型侧处理延迟，仅计算编码、推理、音视频生成解码耗时；叠加350ms双向网络传输延迟后，用户实际感知到的完整交互总延迟约550ms。

Q4：Wan Streamer支持哪些语言，虚拟人形象能否自定义？

A：目前原生支持中文、英文双语交互；v0.1版本内置多套预设虚拟人男女形象、音色，论文未开放自定义形象训练接口，自定义形象属于后续迭代规划内容。

Q5：Wan Streamer v0.1分辨率只有192p，画质为什么不高？

A：v0.1核心目标是验证端到端流式全双工交互技术路线，并非商用高画质版本；官方文档说明架构可轻松扩展更高分辨率，高清版本为后续迭代方向。

Q6：全双工交互具体是什么功能，实际使用有什么优势？

A：全双工指AI生成回应的同时持续感知用户画面、语音，用户可中途插话、打断AI发言；传统回合制AI必须等AI说完才能提问，交互生硬，而Wan Streamer对话逻辑贴近真人视频通话，沟通更自然。

六、相关链接

Wan Streamer官方网站：https://wan-streamer.com/
学术论文arXiv原文地址：https://arxiv.org/abs/2606.25041

七、总结

Wan Streamer是业内首款基于单一Transformer架构打造的原生流式端到端全双工实时音视频交互基础模型，彻底打破传统多模块拼接AI交互系统的延迟高、音画不同步、无法实时打断的行业瓶颈，依靠因果流式建模、条件流匹配音视频联合生成、Thinker–Performer分布式推理三大核心技术，实现200ms模型侧低延迟与亚秒级完整交互反馈，同时原生支持视频感知、同步虚拟人输出、双语实时对话，为实时虚拟客服、AI陪伴、线上教育、数字人直播等场景提供全新底层技术方案，为全双工多模态实时交互模型建立了完整可行的技术验证路线。