--- title: "End-to-End Streaming Interaction" created: 2026-06-25 updated: 2026-06-25 type: concept tags: [streaming, multimodal, interaction, end-to-end, real-time] sources: - "[[wan-streamer]]" --- # End-to-End Streaming Interaction **End-to-End Streaming Interaction**(端到端流式交互)是一种设计范式:将感知、推理、生成、响应时机、话轮管理和跨模态同步全部联合学习在一个统一的因果模型中,而非由独立的模块(VAD、ASR、LLM、TTS、动画渲染)级联组成。 ## 核心原则 Wan-Streamer 提出的流式契约(streaming contract): > 每个组件必须因果地运行,每个新观测到的单元必须立即可用,每个生成的单元必须被发射并提交回交互历史。 ## 为什么需要端到端 级联系统的根本问题不在于单个模块的性能,而在于**模块边界的系统性代价**: 1. **延迟累积**:每个模块都有独立的推理延迟,相加后远超端到端 2. **误差传播**:ASR 的转录错误导致 LLM 误解意图,TTS 的韵律偏差导致不自然 3. **信息瓶颈**:文本作为中间表示丢失了语音的韵律、情感、语调信息;丢失了视频的表情、姿态、凝视信息 4. **无法学习全局行为**:响应时机、话轮管理、中断行为、视觉反馈这些跨越模块边界的行为无法在模块化系统中学习 ## 设计要素 ### 1. 全因果架构 - 因果编码器/解码器:每个流式单元到达即可编码 - 因果 VAE:流式潜编码 - Block-causal attention:流式多模态 token 调度 ### 2. 统一的多模态序列表示 - 视觉、音频、文本 token 在同一条因果时间线上交织 - 用户输入和 Agent 输出 token 共享同一个序列上下文 ### 3. 全历史自回归流式 - 每个生成的单元被 commit 回历史 - 为后续单元的生成提供完整上下文 - 支持长对话中的身份保持、场景记忆、节律连贯 ### 4. 联合优化 - 语音生成和视频生成共享同一因果上下文 - 嘴唇运动、面部动态、韵律天然同步(而非事后对齐) - 聆听行为和说话行为在同一个过程中学习 ## 与传统范式的对比 | 维度 | 级联范式 | 端到端流式 | |------|---------|-----------| | 感知 | 独立 ASR/CV 模块 | 统一因果编码 | | 推理 | 独立 LLM | Transformer 内联合 | | 生成 | 独立 TTS/动画 | 联合 flow-matching | | 时机 | 外部 VAD+规则 | 模型学习 | | 同步 | 事后对齐 | 因果原生同步 | | 延迟 | 各模块之和 | 流水线重叠 | ## 参考 - [[wan-streamer]] — 该范式的代表性实现 - [[full-duplex-interaction]] - [[block-causal-attention]] - [[thinker-performer-pipeline]]