Files
myWiki/concepts/end-to-end-streaming-interaction.md

2.7 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
End-to-End Streaming Interaction 2026-06-25 2026-06-25 concept
streaming
multimodal
interaction
end-to-end
real-time
wan-streamer

End-to-End Streaming Interaction

End-to-End Streaming Interaction端到端流式交互是一种设计范式将感知、推理、生成、响应时机、话轮管理和跨模态同步全部联合学习在一个统一的因果模型中而非由独立的模块VAD、ASR、LLM、TTS、动画渲染级联组成。

核心原则

Wan-Streamer 提出的流式契约streaming contract

每个组件必须因果地运行,每个新观测到的单元必须立即可用,每个生成的单元必须被发射并提交回交互历史。

为什么需要端到端

级联系统的根本问题不在于单个模块的性能,而在于模块边界的系统性代价

  1. 延迟累积:每个模块都有独立的推理延迟,相加后远超端到端
  2. 误差传播ASR 的转录错误导致 LLM 误解意图TTS 的韵律偏差导致不自然
  3. 信息瓶颈:文本作为中间表示丢失了语音的韵律、情感、语调信息;丢失了视频的表情、姿态、凝视信息
  4. 无法学习全局行为:响应时机、话轮管理、中断行为、视觉反馈这些跨越模块边界的行为无法在模块化系统中学习

设计要素

1. 全因果架构

  • 因果编码器/解码器:每个流式单元到达即可编码
  • 因果 VAE流式潜编码
  • Block-causal attention流式多模态 token 调度

2. 统一的多模态序列表示

  • 视觉、音频、文本 token 在同一条因果时间线上交织
  • 用户输入和 Agent 输出 token 共享同一个序列上下文

3. 全历史自回归流式

  • 每个生成的单元被 commit 回历史
  • 为后续单元的生成提供完整上下文
  • 支持长对话中的身份保持、场景记忆、节律连贯

4. 联合优化

  • 语音生成和视频生成共享同一因果上下文
  • 嘴唇运动、面部动态、韵律天然同步(而非事后对齐)
  • 聆听行为和说话行为在同一个过程中学习

与传统范式的对比

维度 级联范式 端到端流式
感知 独立 ASR/CV 模块 统一因果编码
推理 独立 LLM Transformer 内联合
生成 独立 TTS/动画 联合 flow-matching
时机 外部 VAD+规则 模型学习
同步 事后对齐 因果原生同步
延迟 各模块之和 流水线重叠

参考