---
title: "End-to-End Streaming Interaction"
created: 2026-06-25
updated: 2026-06-25
type: concept
tags: [streaming, multimodal, interaction, end-to-end, real-time]
sources:
  - "[[wan-streamer]]"
---

# End-to-End Streaming Interaction

**End-to-End Streaming Interaction**（端到端流式交互）是一种设计范式：将感知、推理、生成、响应时机、话轮管理和跨模态同步全部联合学习在一个统一的因果模型中，而非由独立的模块（VAD、ASR、LLM、TTS、动画渲染）级联组成。

## 核心原则

Wan-Streamer 提出的流式契约（streaming contract）：

> 每个组件必须因果地运行，每个新观测到的单元必须立即可用，每个生成的单元必须被发射并提交回交互历史。

## 为什么需要端到端

级联系统的根本问题不在于单个模块的性能，而在于**模块边界的系统性代价**：

1. **延迟累积**：每个模块都有独立的推理延迟，相加后远超端到端
2. **误差传播**：ASR 的转录错误导致 LLM 误解意图，TTS 的韵律偏差导致不自然
3. **信息瓶颈**：文本作为中间表示丢失了语音的韵律、情感、语调信息；丢失了视频的表情、姿态、凝视信息
4. **无法学习全局行为**：响应时机、话轮管理、中断行为、视觉反馈这些跨越模块边界的行为无法在模块化系统中学习

## 设计要素

### 1. 全因果架构
- 因果编码器/解码器：每个流式单元到达即可编码
- 因果 VAE：流式潜编码
- Block-causal attention：流式多模态 token 调度

### 2. 统一的多模态序列表示
- 视觉、音频、文本 token 在同一条因果时间线上交织
- 用户输入和 Agent 输出 token 共享同一个序列上下文

### 3. 全历史自回归流式
- 每个生成的单元被 commit 回历史
- 为后续单元的生成提供完整上下文
- 支持长对话中的身份保持、场景记忆、节律连贯

### 4. 联合优化
- 语音生成和视频生成共享同一因果上下文
- 嘴唇运动、面部动态、韵律天然同步（而非事后对齐）
- 聆听行为和说话行为在同一个过程中学习

## 与传统范式的对比

| 维度 | 级联范式 | 端到端流式 |
|------|---------|-----------|
| 感知 | 独立 ASR/CV 模块 | 统一因果编码 |
| 推理 | 独立 LLM | Transformer 内联合 |
| 生成 | 独立 TTS/动画 | 联合 flow-matching |
| 时机 | 外部 VAD+规则 | 模型学习 |
| 同步 | 事后对齐 | 因果原生同步 |
| 延迟 | 各模块之和 | 流水线重叠 |

## 参考

- [[wan-streamer]] — 该范式的代表性实现
- [[full-duplex-interaction]]
- [[block-causal-attention]]
- [[thinker-performer-pipeline]]