Files
myWiki/concepts/diffusion-transformer.md

48 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Diffusion Transformer (DiT)"
created: 2026-06-20
updated: 2026-06-20
type: concept
tags: ["architecture", "diffusion", "transformer", "video-generation"]
sources: ["https://arxiv.org/abs/2606.17800"]
---
# Diffusion Transformer (DiT)
**Diffusion Transformer (DiT)** 是用 Transformer 架构替代传统 U-Net 作为扩散模型骨干的生成架构。它在图像和视频生成领域已取代 U-Net 成为主流。
## 核心设计
DiT 将潜空间中的图像/视频表示为 Patch Token 序列,通过标准 Transformer 层处理:
- **序列化**:空间+时间维度展开为 token 序列
- **条件注入**:时间步长、文本条件通过 AdaLN (adaptive layer norm) 或交叉注意力注入
- **可扩展性**:随参数量的增加性能持续提升
## 在视频生成中的应用
视频 DiT 引入**时空注意力**spatiotemporal attention处理 3D 潜变量:
- **双向时间注意力**:所有帧相互 attend → 非因果,无法流式
- **因果/块因果注意力**:仅 attend 历史 → 支持流式生成([[autoregressive-video-generation|自回归视频生成]]
## 关键效率技术
由于视频 DiT 的自注意力成本随时空 token 数平方增长,产生了一系列加速方法:
- **Step Distillation**:减少去噪步数(如 50→4 步)
- **Efficient Attention**FlashAttention、稀疏注意力
- **Cache Optimization**KV-cache 复用
- **Model Compression**:量化、剪枝
## 代表性模型
- **Sora (OpenAI)**: 基于 DiT 的视频生成先驱
- **LTX-2.3**: 22B 开源音视频 DiTMaineCoon 的基础模型)
- **MaineCoon**: 22B 流式音频视觉 DiT[[maineCoon]]),从 LTX-2.3 初始化
## 相关概念
- [[flow-matching|Flow Matching]]
- [[kv-cache]]
- [[block-causal-attention]] — 替代双向时间注意力的流式因果模式
- [[wan-streamer]] — 端到端流式交互基础模型中的应用
- [[audio-visual-generation|音视频联合生成]]
- [[self-resampling|自重采样]]