20260625:很多新内容
This commit is contained in:
79
papers/wan-streamer.md
Normal file
79
papers/wan-streamer.md
Normal file
@@ -0,0 +1,79 @@
|
||||
---
|
||||
title: "Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models"
|
||||
created: 2026-06-25
|
||||
updated: 2026-06-25
|
||||
type: paper
|
||||
tags: [multimodal, real-time, foundation-model, streaming, full-duplex, audio-visual, transformer]
|
||||
sources:
|
||||
- https://arxiv.org/abs/2606.25041
|
||||
- https://wan-streamer.com
|
||||
---
|
||||
|
||||
# Wan-Streamer v0.1
|
||||
|
||||
**Wan-Streamer** 是阿里巴巴 Wan Team 提出的端到端原生流式交互基础模型,支持语言、音频、视频作为输入和输出的全双工实时交互。核心创新在于将感知、推理、生成、响应时机、话轮管理和跨模态同步**全部联合学习在一个 Transformer 中**,摒弃了传统级联系统(VAD → ASR → LLM → TTS → 动画生成)的模块架构。
|
||||
|
||||
## 核心贡献
|
||||
|
||||
### 1. 统一的端到端流式架构
|
||||
|
||||
Wan-Streamer 将用户输入和 Agent 输出视为**一条因果时间线**上的交织序列(interleaved visual, audio, text tokens),使用 [[block-causal-attention|block-causal attention]] 实现增量流式生成。一个 Transformer 承担所有模态的编解码,不依赖外部语言、语音、化身或视频生成模块。
|
||||
|
||||
### 2. 全因果多模态架构
|
||||
|
||||
为支持流式实时交互,整个架构从底层设计为因果的:
|
||||
- **[[causal-multimodal-vae|因果多模态 VAE]]**:严格因果的音频和视频变分自编码器,用于流式潜编码
|
||||
- **因果编码器/解码器**:因果音视频编码器和解码器
|
||||
- **[[block-causal-attention]]**:块因果注意力机制,协调多模态 token 的流式调度
|
||||
- **全历史自回归流式**:每个生成的单元被立即提交回交互历史
|
||||
|
||||
### 3. Thinker-Performer 推理流水线
|
||||
|
||||
推理时,模型拆分为两个协作进程:
|
||||
|
||||
| 角色 | 职责 | 关键操作 |
|
||||
|------|------|----------|
|
||||
| **Thinker** | 感知、状态更新、前帧解码发射 | 因果编码器 → Transformer → KV cache 更新 → 解码发射 |
|
||||
| **Performer** | 潜变量生成(flow-matching) | 接收 KV slice → flow-matching solver → 返回 clean latents |
|
||||
|
||||
通过 **KV-cache 交换** 维持统一因果状态,实现感知/状态更新、前帧解码、KV/潜变量通信、下一帧去噪的**流水线重叠**。在 160ms 流式单元内完成一轮完整循环。
|
||||
|
||||
**延迟指标**:
|
||||
- 模型侧响应延迟:~200ms
|
||||
- 端到端交互延迟(含 350ms 双向网络):~550ms
|
||||
- 输出帧率:25 FPS
|
||||
|
||||
### 4. 全双工交互能力
|
||||
|
||||
通过在全双工交互数据上训练,模型学会了:
|
||||
- **连续感知**:即使正在说话,也持续消费用户的音视频观测
|
||||
- **中断处理**:用户自然打断时停止或重新规划响应
|
||||
- **主动说话**:当视觉流中出现显著事件时,主动发起评论或提问
|
||||
- **非语言反馈**:空闲时的身份保持、凝视、姿态;聆听时的点头、微表情
|
||||
|
||||
## 方法论要点
|
||||
|
||||
- **条件流匹配**:音频和视频响应以连续潜变量形式,通过 [[flow-matching|conditional flow matching]] 联合生成
|
||||
- **三阶段训练**:独立任务预训练 → 多模态联合训练 → 端到端双工交互微调
|
||||
- **数据混合**:理解数据(图像/音频/视频理解、ASR、TTS) + 生成数据(图像/音频/视频生成) + 端到端双工交互数据
|
||||
|
||||
## 实验对比
|
||||
|
||||
与 Doubao Realtime Voice、GPT-4o Realtime API、Gemini Live、Moshi、Qwen3-Omni、MiniCPM-o 等系统的对比显示:Wan-Streamer 是**唯一同时支持文本/音频/视频输入输出的单一端到端模型**,且响应延迟处于领先水平。
|
||||
|
||||
## 局限
|
||||
|
||||
当前 v0.1 版本输出分辨率为 192p,作为概念验证;扩展到更高分辨率留待未来工作。
|
||||
|
||||
## 参考
|
||||
|
||||
- [原始存档](raw/papers/wan-streamer-2026.md)
|
||||
- [[flow-matching]]
|
||||
- [[kv-cache]]
|
||||
- [[diffusion-transformer]]
|
||||
- [[native-streaming-ar-training]]
|
||||
- [[full-duplex-interaction]]
|
||||
- [[block-causal-attention]]
|
||||
- [[thinker-performer-pipeline]]
|
||||
- [[causal-multimodal-vae]]
|
||||
- [[end-to-end-streaming-interaction]]
|
||||
Reference in New Issue
Block a user