SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

2.0 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Diffusion Transformer (DiT)

2026-06-20

2026-06-20

concept

architecture

diffusion

transformer

video-generation

https://arxiv.org/abs/2606.17800

Diffusion Transformer (DiT)

Diffusion Transformer (DiT) 是用 Transformer 架构替代传统 U-Net 作为扩散模型骨干的生成架构。它在图像和视频生成领域已取代 U-Net 成为主流。

核心设计

DiT 将潜空间中的图像/视频表示为 Patch Token 序列，通过标准 Transformer 层处理：

序列化：空间+时间维度展开为 token 序列
条件注入：时间步长、文本条件通过 AdaLN (adaptive layer norm) 或交叉注意力注入
可扩展性：随参数量的增加性能持续提升

在视频生成中的应用

视频 DiT 引入时空注意力（spatiotemporal attention）处理 3D 潜变量：

双向时间注意力：所有帧相互 attend → 非因果，无法流式
因果/块因果注意力：仅 attend 历史 → 支持流式生成（autoregressive-video-generation）

关键效率技术

由于视频 DiT 的自注意力成本随时空 token 数平方增长，产生了一系列加速方法：

Step Distillation：减少去噪步数（如 50→4 步）
Efficient Attention：FlashAttention、稀疏注意力
Cache Optimization：KV-cache 复用
Model Compression：量化、剪枝

代表性模型

Sora (OpenAI): 基于 DiT 的视频生成先驱
LTX-2.3: 22B 开源音视频 DiT（MaineCoon 的基础模型）
MaineCoon: 22B 流式音频视觉 DiT（maineCoon），从 LTX-2.3 初始化

相关概念

flow-matching
kv-cache
block-causal-attention — 替代双向时间注意力的流式因果模式
wan-streamer — 端到端流式交互基础模型中的应用
audio-visual-generation
self-resampling