20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/diffusion-transformer.md
+++ b/concepts/diffusion-transformer.md
@@ -0,0 +1,47 @@
+---
+title: "Diffusion Transformer (DiT)"
+created: 2026-06-20
+updated: 2026-06-20
+type: concept
+tags: ["architecture", "diffusion", "transformer", "video-generation"]
+sources: ["https://arxiv.org/abs/2606.17800"]
+---
+
+# Diffusion Transformer (DiT)
+
+**Diffusion Transformer (DiT)** 是用 Transformer 架构替代传统 U-Net 作为扩散模型骨干的生成架构。它在图像和视频生成领域已取代 U-Net 成为主流。
+
+## 核心设计
+
+DiT 将潜空间中的图像/视频表示为 Patch Token 序列，通过标准 Transformer 层处理：
+- **序列化**：空间+时间维度展开为 token 序列
+- **条件注入**：时间步长、文本条件通过 AdaLN (adaptive layer norm) 或交叉注意力注入
+- **可扩展性**：随参数量的增加性能持续提升
+
+## 在视频生成中的应用
+
+视频 DiT 引入**时空注意力**（spatiotemporal attention）处理 3D 潜变量：
+- **双向时间注意力**：所有帧相互 attend → 非因果，无法流式
+- **因果/块因果注意力**：仅 attend 历史 → 支持流式生成（[[autoregressive-video-generation|自回归视频生成]]）
+
+## 关键效率技术
+
+由于视频 DiT 的自注意力成本随时空 token 数平方增长，产生了一系列加速方法：
+- **Step Distillation**：减少去噪步数（如 50→4 步）
+- **Efficient Attention**：FlashAttention、稀疏注意力
+- **Cache Optimization**：KV-cache 复用
+- **Model Compression**：量化、剪枝
+
+## 代表性模型
+
+- **Sora (OpenAI)**: 基于 DiT 的视频生成先驱
+- **LTX-2.3**: 22B 开源音视频 DiT（MaineCoon 的基础模型）
+- **MaineCoon**: 22B 流式音频视觉 DiT（[[maineCoon]]），从 LTX-2.3 初始化
+
+## 相关概念
+- [[flow-matching|Flow Matching]]
+- [[kv-cache]]
+- [[block-causal-attention]] — 替代双向时间注意力的流式因果模式
+- [[wan-streamer]] — 端到端流式交互基础模型中的应用
+- [[audio-visual-generation|音视频联合生成]]
+- [[self-resampling|自重采样]]