2.7 KiB
2.7 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| End-to-End Streaming Interaction | 2026-06-25 | 2026-06-25 | concept |
|
|
End-to-End Streaming Interaction
End-to-End Streaming Interaction(端到端流式交互)是一种设计范式:将感知、推理、生成、响应时机、话轮管理和跨模态同步全部联合学习在一个统一的因果模型中,而非由独立的模块(VAD、ASR、LLM、TTS、动画渲染)级联组成。
核心原则
Wan-Streamer 提出的流式契约(streaming contract):
每个组件必须因果地运行,每个新观测到的单元必须立即可用,每个生成的单元必须被发射并提交回交互历史。
为什么需要端到端
级联系统的根本问题不在于单个模块的性能,而在于模块边界的系统性代价:
- 延迟累积:每个模块都有独立的推理延迟,相加后远超端到端
- 误差传播:ASR 的转录错误导致 LLM 误解意图,TTS 的韵律偏差导致不自然
- 信息瓶颈:文本作为中间表示丢失了语音的韵律、情感、语调信息;丢失了视频的表情、姿态、凝视信息
- 无法学习全局行为:响应时机、话轮管理、中断行为、视觉反馈这些跨越模块边界的行为无法在模块化系统中学习
设计要素
1. 全因果架构
- 因果编码器/解码器:每个流式单元到达即可编码
- 因果 VAE:流式潜编码
- Block-causal attention:流式多模态 token 调度
2. 统一的多模态序列表示
- 视觉、音频、文本 token 在同一条因果时间线上交织
- 用户输入和 Agent 输出 token 共享同一个序列上下文
3. 全历史自回归流式
- 每个生成的单元被 commit 回历史
- 为后续单元的生成提供完整上下文
- 支持长对话中的身份保持、场景记忆、节律连贯
4. 联合优化
- 语音生成和视频生成共享同一因果上下文
- 嘴唇运动、面部动态、韵律天然同步(而非事后对齐)
- 聆听行为和说话行为在同一个过程中学习
与传统范式的对比
| 维度 | 级联范式 | 端到端流式 |
|---|---|---|
| 感知 | 独立 ASR/CV 模块 | 统一因果编码 |
| 推理 | 独立 LLM | Transformer 内联合 |
| 生成 | 独立 TTS/动画 | 联合 flow-matching |
| 时机 | 外部 VAD+规则 | 模型学习 |
| 同步 | 事后对齐 | 因果原生同步 |
| 延迟 | 各模块之和 | 流水线重叠 |