Files
myWiki/concepts/diffusion-transformer.md

2.0 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Diffusion Transformer (DiT) 2026-06-20 2026-06-20 concept
architecture
diffusion
transformer
video-generation
https://arxiv.org/abs/2606.17800

Diffusion Transformer (DiT)

Diffusion Transformer (DiT) 是用 Transformer 架构替代传统 U-Net 作为扩散模型骨干的生成架构。它在图像和视频生成领域已取代 U-Net 成为主流。

核心设计

DiT 将潜空间中的图像/视频表示为 Patch Token 序列,通过标准 Transformer 层处理:

  • 序列化:空间+时间维度展开为 token 序列
  • 条件注入:时间步长、文本条件通过 AdaLN (adaptive layer norm) 或交叉注意力注入
  • 可扩展性:随参数量的增加性能持续提升

在视频生成中的应用

视频 DiT 引入时空注意力spatiotemporal attention处理 3D 潜变量:

  • 双向时间注意力:所有帧相互 attend → 非因果,无法流式
  • 因果/块因果注意力:仅 attend 历史 → 支持流式生成(autoregressive-video-generation

关键效率技术

由于视频 DiT 的自注意力成本随时空 token 数平方增长,产生了一系列加速方法:

  • Step Distillation:减少去噪步数(如 50→4 步)
  • Efficient AttentionFlashAttention、稀疏注意力
  • Cache OptimizationKV-cache 复用
  • Model Compression:量化、剪枝

代表性模型

  • Sora (OpenAI): 基于 DiT 的视频生成先驱
  • LTX-2.3: 22B 开源音视频 DiTMaineCoon 的基础模型)
  • MaineCoon: 22B 流式音频视觉 DiTmaineCoon),从 LTX-2.3 初始化

相关概念