2.0 KiB
2.0 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| Diffusion Transformer (DiT) | 2026-06-20 | 2026-06-20 | concept |
|
|
Diffusion Transformer (DiT)
Diffusion Transformer (DiT) 是用 Transformer 架构替代传统 U-Net 作为扩散模型骨干的生成架构。它在图像和视频生成领域已取代 U-Net 成为主流。
核心设计
DiT 将潜空间中的图像/视频表示为 Patch Token 序列,通过标准 Transformer 层处理:
- 序列化:空间+时间维度展开为 token 序列
- 条件注入:时间步长、文本条件通过 AdaLN (adaptive layer norm) 或交叉注意力注入
- 可扩展性:随参数量的增加性能持续提升
在视频生成中的应用
视频 DiT 引入时空注意力(spatiotemporal attention)处理 3D 潜变量:
- 双向时间注意力:所有帧相互 attend → 非因果,无法流式
- 因果/块因果注意力:仅 attend 历史 → 支持流式生成(autoregressive-video-generation)
关键效率技术
由于视频 DiT 的自注意力成本随时空 token 数平方增长,产生了一系列加速方法:
- Step Distillation:减少去噪步数(如 50→4 步)
- Efficient Attention:FlashAttention、稀疏注意力
- Cache Optimization:KV-cache 复用
- Model Compression:量化、剪枝
代表性模型
- Sora (OpenAI): 基于 DiT 的视频生成先驱
- LTX-2.3: 22B 开源音视频 DiT(MaineCoon 的基础模型)
- MaineCoon: 22B 流式音频视觉 DiT(maineCoon),从 LTX-2.3 初始化
相关概念
- flow-matching
- kv-cache
- block-causal-attention — 替代双向时间注意力的流式因果模式
- wan-streamer — 端到端流式交互基础模型中的应用
- audio-visual-generation
- self-resampling