20260625:很多新内容
This commit is contained in:
47
concepts/diffusion-transformer.md
Normal file
47
concepts/diffusion-transformer.md
Normal file
@@ -0,0 +1,47 @@
|
||||
---
|
||||
title: "Diffusion Transformer (DiT)"
|
||||
created: 2026-06-20
|
||||
updated: 2026-06-20
|
||||
type: concept
|
||||
tags: ["architecture", "diffusion", "transformer", "video-generation"]
|
||||
sources: ["https://arxiv.org/abs/2606.17800"]
|
||||
---
|
||||
|
||||
# Diffusion Transformer (DiT)
|
||||
|
||||
**Diffusion Transformer (DiT)** 是用 Transformer 架构替代传统 U-Net 作为扩散模型骨干的生成架构。它在图像和视频生成领域已取代 U-Net 成为主流。
|
||||
|
||||
## 核心设计
|
||||
|
||||
DiT 将潜空间中的图像/视频表示为 Patch Token 序列,通过标准 Transformer 层处理:
|
||||
- **序列化**:空间+时间维度展开为 token 序列
|
||||
- **条件注入**:时间步长、文本条件通过 AdaLN (adaptive layer norm) 或交叉注意力注入
|
||||
- **可扩展性**:随参数量的增加性能持续提升
|
||||
|
||||
## 在视频生成中的应用
|
||||
|
||||
视频 DiT 引入**时空注意力**(spatiotemporal attention)处理 3D 潜变量:
|
||||
- **双向时间注意力**:所有帧相互 attend → 非因果,无法流式
|
||||
- **因果/块因果注意力**:仅 attend 历史 → 支持流式生成([[autoregressive-video-generation|自回归视频生成]])
|
||||
|
||||
## 关键效率技术
|
||||
|
||||
由于视频 DiT 的自注意力成本随时空 token 数平方增长,产生了一系列加速方法:
|
||||
- **Step Distillation**:减少去噪步数(如 50→4 步)
|
||||
- **Efficient Attention**:FlashAttention、稀疏注意力
|
||||
- **Cache Optimization**:KV-cache 复用
|
||||
- **Model Compression**:量化、剪枝
|
||||
|
||||
## 代表性模型
|
||||
|
||||
- **Sora (OpenAI)**: 基于 DiT 的视频生成先驱
|
||||
- **LTX-2.3**: 22B 开源音视频 DiT(MaineCoon 的基础模型)
|
||||
- **MaineCoon**: 22B 流式音频视觉 DiT([[maineCoon]]),从 LTX-2.3 初始化
|
||||
|
||||
## 相关概念
|
||||
- [[flow-matching|Flow Matching]]
|
||||
- [[kv-cache]]
|
||||
- [[block-causal-attention]] — 替代双向时间注意力的流式因果模式
|
||||
- [[wan-streamer]] — 端到端流式交互基础模型中的应用
|
||||
- [[audio-visual-generation|音视频联合生成]]
|
||||
- [[self-resampling|自重采样]]
|
||||
Reference in New Issue
Block a user