68 lines
2.7 KiB
Markdown
68 lines
2.7 KiB
Markdown
---
|
||
title: "End-to-End Streaming Interaction"
|
||
created: 2026-06-25
|
||
updated: 2026-06-25
|
||
type: concept
|
||
tags: [streaming, multimodal, interaction, end-to-end, real-time]
|
||
sources:
|
||
- "[[wan-streamer]]"
|
||
---
|
||
|
||
# End-to-End Streaming Interaction
|
||
|
||
**End-to-End Streaming Interaction**(端到端流式交互)是一种设计范式:将感知、推理、生成、响应时机、话轮管理和跨模态同步全部联合学习在一个统一的因果模型中,而非由独立的模块(VAD、ASR、LLM、TTS、动画渲染)级联组成。
|
||
|
||
## 核心原则
|
||
|
||
Wan-Streamer 提出的流式契约(streaming contract):
|
||
|
||
> 每个组件必须因果地运行,每个新观测到的单元必须立即可用,每个生成的单元必须被发射并提交回交互历史。
|
||
|
||
## 为什么需要端到端
|
||
|
||
级联系统的根本问题不在于单个模块的性能,而在于**模块边界的系统性代价**:
|
||
|
||
1. **延迟累积**:每个模块都有独立的推理延迟,相加后远超端到端
|
||
2. **误差传播**:ASR 的转录错误导致 LLM 误解意图,TTS 的韵律偏差导致不自然
|
||
3. **信息瓶颈**:文本作为中间表示丢失了语音的韵律、情感、语调信息;丢失了视频的表情、姿态、凝视信息
|
||
4. **无法学习全局行为**:响应时机、话轮管理、中断行为、视觉反馈这些跨越模块边界的行为无法在模块化系统中学习
|
||
|
||
## 设计要素
|
||
|
||
### 1. 全因果架构
|
||
- 因果编码器/解码器:每个流式单元到达即可编码
|
||
- 因果 VAE:流式潜编码
|
||
- Block-causal attention:流式多模态 token 调度
|
||
|
||
### 2. 统一的多模态序列表示
|
||
- 视觉、音频、文本 token 在同一条因果时间线上交织
|
||
- 用户输入和 Agent 输出 token 共享同一个序列上下文
|
||
|
||
### 3. 全历史自回归流式
|
||
- 每个生成的单元被 commit 回历史
|
||
- 为后续单元的生成提供完整上下文
|
||
- 支持长对话中的身份保持、场景记忆、节律连贯
|
||
|
||
### 4. 联合优化
|
||
- 语音生成和视频生成共享同一因果上下文
|
||
- 嘴唇运动、面部动态、韵律天然同步(而非事后对齐)
|
||
- 聆听行为和说话行为在同一个过程中学习
|
||
|
||
## 与传统范式的对比
|
||
|
||
| 维度 | 级联范式 | 端到端流式 |
|
||
|------|---------|-----------|
|
||
| 感知 | 独立 ASR/CV 模块 | 统一因果编码 |
|
||
| 推理 | 独立 LLM | Transformer 内联合 |
|
||
| 生成 | 独立 TTS/动画 | 联合 flow-matching |
|
||
| 时机 | 外部 VAD+规则 | 模型学习 |
|
||
| 同步 | 事后对齐 | 因果原生同步 |
|
||
| 延迟 | 各模块之和 | 流水线重叠 |
|
||
|
||
## 参考
|
||
|
||
- [[wan-streamer]] — 该范式的代表性实现
|
||
- [[full-duplex-interaction]]
|
||
- [[block-causal-attention]]
|
||
- [[thinker-performer-pipeline]]
|