Files
myWiki/papers/wan-streamer.md

80 lines
3.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models"
created: 2026-06-25
updated: 2026-06-25
type: paper
tags: [multimodal, real-time, foundation-model, streaming, full-duplex, audio-visual, transformer]
sources:
- https://arxiv.org/abs/2606.25041
- https://wan-streamer.com
---
# Wan-Streamer v0.1
**Wan-Streamer** 是阿里巴巴 Wan Team 提出的端到端原生流式交互基础模型,支持语言、音频、视频作为输入和输出的全双工实时交互。核心创新在于将感知、推理、生成、响应时机、话轮管理和跨模态同步**全部联合学习在一个 Transformer 中**摒弃了传统级联系统VAD → ASR → LLM → TTS → 动画生成)的模块架构。
## 核心贡献
### 1. 统一的端到端流式架构
Wan-Streamer 将用户输入和 Agent 输出视为**一条因果时间线**上的交织序列interleaved visual, audio, text tokens使用 [[block-causal-attention|block-causal attention]] 实现增量流式生成。一个 Transformer 承担所有模态的编解码,不依赖外部语言、语音、化身或视频生成模块。
### 2. 全因果多模态架构
为支持流式实时交互,整个架构从底层设计为因果的:
- **[[causal-multimodal-vae|因果多模态 VAE]]**:严格因果的音频和视频变分自编码器,用于流式潜编码
- **因果编码器/解码器**:因果音视频编码器和解码器
- **[[block-causal-attention]]**:块因果注意力机制,协调多模态 token 的流式调度
- **全历史自回归流式**:每个生成的单元被立即提交回交互历史
### 3. Thinker-Performer 推理流水线
推理时,模型拆分为两个协作进程:
| 角色 | 职责 | 关键操作 |
|------|------|----------|
| **Thinker** | 感知、状态更新、前帧解码发射 | 因果编码器 → Transformer → KV cache 更新 → 解码发射 |
| **Performer** | 潜变量生成flow-matching | 接收 KV slice → flow-matching solver → 返回 clean latents |
通过 **KV-cache 交换** 维持统一因果状态,实现感知/状态更新、前帧解码、KV/潜变量通信、下一帧去噪的**流水线重叠**。在 160ms 流式单元内完成一轮完整循环。
**延迟指标**
- 模型侧响应延迟:~200ms
- 端到端交互延迟(含 350ms 双向网络):~550ms
- 输出帧率25 FPS
### 4. 全双工交互能力
通过在全双工交互数据上训练,模型学会了:
- **连续感知**:即使正在说话,也持续消费用户的音视频观测
- **中断处理**:用户自然打断时停止或重新规划响应
- **主动说话**:当视觉流中出现显著事件时,主动发起评论或提问
- **非语言反馈**:空闲时的身份保持、凝视、姿态;聆听时的点头、微表情
## 方法论要点
- **条件流匹配**:音频和视频响应以连续潜变量形式,通过 [[flow-matching|conditional flow matching]] 联合生成
- **三阶段训练**:独立任务预训练 → 多模态联合训练 → 端到端双工交互微调
- **数据混合**:理解数据(图像/音频/视频理解、ASR、TTS + 生成数据(图像/音频/视频生成) + 端到端双工交互数据
## 实验对比
与 Doubao Realtime Voice、GPT-4o Realtime API、Gemini Live、Moshi、Qwen3-Omni、MiniCPM-o 等系统的对比显示Wan-Streamer 是**唯一同时支持文本/音频/视频输入输出的单一端到端模型**,且响应延迟处于领先水平。
## 局限
当前 v0.1 版本输出分辨率为 192p作为概念验证扩展到更高分辨率留待未来工作。
## 参考
- [原始存档](raw/papers/wan-streamer-2026.md)
- [[flow-matching]]
- [[kv-cache]]
- [[diffusion-transformer]]
- [[native-streaming-ar-training]]
- [[full-duplex-interaction]]
- [[block-causal-attention]]
- [[thinker-performer-pipeline]]
- [[causal-multimodal-vae]]
- [[end-to-end-streaming-interaction]]