20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/reviews/wan-streamer-2026-06-25.md
+++ b/reviews/wan-streamer-2026-06-25.md
@@ -0,0 +1,50 @@
+---
+title: "Wan-Streamer v0.1 Review"
+created: 2026-06-25
+updated: 2026-06-25
+type: review
+tags: [multimodal, real-time, foundation-model, streaming, full-duplex]
+sources:
+  - "[[wan-streamer]]"
+---
+
+# Wan-Streamer v0.1 — Review
+
+📌 **基本信息**
+- 论文：Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models
+- 作者：Wan Team, Alibaba Group（24 位作者）
+- 领域：多模态基础模型（cs.CV / cs.AI / cs.GR / cs.SD）
+- arXiv：2606.25041
+- 添加时间：2026-06-25
+
+🎯 **核心概念**
+
+1. **[[block-causal-attention]]** — 块内双向、块间因果的注意力模式，为流式多模态 token 调度设计
+2. **[[full-duplex-interaction]]** — 用户与 Agent 同时感知和表达的全双工交互范式
+3. **[[thinker-performer-pipeline]]** — Thinker（感知+状态更新+解码）和 Performer（flow-matching 去噪）的流水线推理架构
+4. **[[causal-multimodal-vae]]** — 严格因果的音频/视频变分自编码器，支持流式逐帧编码
+5. **[[end-to-end-streaming-interaction]]** — 感知、推理、生成、时机、同步全部联合学习的端到端流式范式
+
+🔗 **概念网络**
+
+- **核心连接**：wan-streamer ↔ block-causal-attention ↔ full-duplex-interaction ↔ thinker-performer-pipeline ↔ causal-multimodal-vae
+- **已有概念桥接**：→ [[flow-matching]]（条件流匹配用于联合音视频生成）→ [[kv-cache]]（Thinker-Performer KV 交换）→ [[diffusion-transformer]]（统一 DiT 骨干）→ [[native-streaming-ar-training]]（原生流式训练）
+- **新增概念**：5 个
+- **更新已有概念**：4 个（flow-matching, kv-cache, diffusion-transformer, native-streaming-ar-training）
+
+📚 **Wiki 集成**
+
+- 新增页面：6 个（1 论文 + 5 概念）
+- 更新已有概念：4 个
+- 链接密度：核心概念平均 5+ 个交叉引用
+- 网络完整：待验证
+
+💡 **关键洞察**
+
+1. **流式是建模约束而非服务优化**：Wan-Streamer 的核心方法论突破在于认识到：为离线编码器、双向解码器、回合制对话设计的系统，无法通过工程手段恢复低延迟全双工行为。流式（streamability）必须从底层架构开始设计——因果 VAE、因果编解码器、block-causal attention 不可事后修补。
+
+2. **单 Transformer 统一音视频交互的可行性验证**：将语言、音频、视频的感知和生成全部放入一个 Transformer，不依赖外部 ASR/TTS/动画模块，在 550ms 端到端延迟下实现自然交互——这证明了"联合学习 > 级联"在真实延迟约束下是可行的。
+
+3. **Thinker-Performer 分离是实用的工程权衡**：虽然训练时是单一模型，推理时拆分为两个 GPU 进程，通过 KV-cache 交换维持统一状态——这在不牺牲模型统一性的前提下，通过流水线重叠实现了 160ms 单元的实时吞吐。
+
+4. **全双工不只是一个 protocol feature**：通过在全双工交互数据上训练（而非规则化的话轮管理），模型学会了中断处理、主动说话、聆听反馈——这些都是级联系列无法通过独立模块学习的行为。