Files
myWiki/papers/wan-streamer.md

3.9 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models 2026-06-25 2026-06-25 paper
multimodal
real-time
foundation-model
streaming
full-duplex
audio-visual
transformer
https://arxiv.org/abs/2606.25041
https://wan-streamer.com

Wan-Streamer v0.1

Wan-Streamer 是阿里巴巴 Wan Team 提出的端到端原生流式交互基础模型,支持语言、音频、视频作为输入和输出的全双工实时交互。核心创新在于将感知、推理、生成、响应时机、话轮管理和跨模态同步全部联合学习在一个 Transformer 中摒弃了传统级联系统VAD → ASR → LLM → TTS → 动画生成)的模块架构。

核心贡献

1. 统一的端到端流式架构

Wan-Streamer 将用户输入和 Agent 输出视为一条因果时间线上的交织序列interleaved visual, audio, text tokens使用 block-causal-attention 实现增量流式生成。一个 Transformer 承担所有模态的编解码,不依赖外部语言、语音、化身或视频生成模块。

2. 全因果多模态架构

为支持流式实时交互,整个架构从底层设计为因果的:

  • causal-multimodal-vae:严格因果的音频和视频变分自编码器,用于流式潜编码
  • 因果编码器/解码器:因果音视频编码器和解码器
  • block-causal-attention:块因果注意力机制,协调多模态 token 的流式调度
  • 全历史自回归流式:每个生成的单元被立即提交回交互历史

3. Thinker-Performer 推理流水线

推理时,模型拆分为两个协作进程:

角色 职责 关键操作
Thinker 感知、状态更新、前帧解码发射 因果编码器 → Transformer → KV cache 更新 → 解码发射
Performer 潜变量生成flow-matching 接收 KV slice → flow-matching solver → 返回 clean latents

通过 KV-cache 交换 维持统一因果状态,实现感知/状态更新、前帧解码、KV/潜变量通信、下一帧去噪的流水线重叠。在 160ms 流式单元内完成一轮完整循环。

延迟指标

  • 模型侧响应延迟:~200ms
  • 端到端交互延迟(含 350ms 双向网络):~550ms
  • 输出帧率25 FPS

4. 全双工交互能力

通过在全双工交互数据上训练,模型学会了:

  • 连续感知:即使正在说话,也持续消费用户的音视频观测
  • 中断处理:用户自然打断时停止或重新规划响应
  • 主动说话:当视觉流中出现显著事件时,主动发起评论或提问
  • 非语言反馈:空闲时的身份保持、凝视、姿态;聆听时的点头、微表情

方法论要点

  • 条件流匹配:音频和视频响应以连续潜变量形式,通过 flow-matching 联合生成
  • 三阶段训练:独立任务预训练 → 多模态联合训练 → 端到端双工交互微调
  • 数据混合:理解数据(图像/音频/视频理解、ASR、TTS + 生成数据(图像/音频/视频生成) + 端到端双工交互数据

实验对比

与 Doubao Realtime Voice、GPT-4o Realtime API、Gemini Live、Moshi、Qwen3-Omni、MiniCPM-o 等系统的对比显示Wan-Streamer 是唯一同时支持文本/音频/视频输入输出的单一端到端模型,且响应延迟处于领先水平。

局限

当前 v0.1 版本输出分辨率为 192p作为概念验证扩展到更高分辨率留待未来工作。

参考