SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

2.7 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

End-to-End Streaming Interaction

2026-06-25

2026-06-25

concept

streaming

multimodal

interaction

end-to-end

real-time

End-to-End Streaming Interaction

End-to-End Streaming Interaction（端到端流式交互）是一种设计范式：将感知、推理、生成、响应时机、话轮管理和跨模态同步全部联合学习在一个统一的因果模型中，而非由独立的模块（VAD、ASR、LLM、TTS、动画渲染）级联组成。

核心原则

Wan-Streamer 提出的流式契约（streaming contract）：

每个组件必须因果地运行，每个新观测到的单元必须立即可用，每个生成的单元必须被发射并提交回交互历史。

为什么需要端到端

级联系统的根本问题不在于单个模块的性能，而在于模块边界的系统性代价：

延迟累积：每个模块都有独立的推理延迟，相加后远超端到端
误差传播：ASR 的转录错误导致 LLM 误解意图，TTS 的韵律偏差导致不自然
信息瓶颈：文本作为中间表示丢失了语音的韵律、情感、语调信息；丢失了视频的表情、姿态、凝视信息
无法学习全局行为：响应时机、话轮管理、中断行为、视觉反馈这些跨越模块边界的行为无法在模块化系统中学习

设计要素

1. 全因果架构

因果编码器/解码器：每个流式单元到达即可编码
因果 VAE：流式潜编码
Block-causal attention：流式多模态 token 调度

2. 统一的多模态序列表示

视觉、音频、文本 token 在同一条因果时间线上交织
用户输入和 Agent 输出 token 共享同一个序列上下文

3. 全历史自回归流式

每个生成的单元被 commit 回历史
为后续单元的生成提供完整上下文
支持长对话中的身份保持、场景记忆、节律连贯

4. 联合优化

语音生成和视频生成共享同一因果上下文
嘴唇运动、面部动态、韵律天然同步（而非事后对齐）
聆听行为和说话行为在同一个过程中学习

与传统范式的对比

维度	级联范式	端到端流式
感知	独立 ASR/CV 模块	统一因果编码
推理	独立 LLM	Transformer 内联合
生成	独立 TTS/动画	联合 flow-matching
时机	外部 VAD+规则	模型学习
同步	事后对齐	因果原生同步
延迟	各模块之和	流水线重叠

参考