Files
myWiki/concepts/autoregressive-video-generation.md

1.6 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Autoregressive Video Generation 2026-06-20 2026-06-20 concept
generation
video
autoregressive
causal
https://arxiv.org/abs/2606.17800

Autoregressive Video Generation (自回归视频生成)

Autoregressive Video Generation 是将视频生成建模为逐帧/逐块因果生成的过程:每一帧依赖之前生成的帧,而不访问未来信息。

与双向扩散模型的核心差异

传统 diffusion-transformer 视频模型使用双向时间注意力bidirectional temporal attention在生成过程中所有帧相互依赖。这带来两个问题

  1. 非实时:中间帧在全部去噪完成前无法输出
  2. 计算随长度增长:自注意力成本随序列长度平方增长

自回归视频生成通过因果注意力causal attention解决

  • 逐块生成,每块仅依赖历史
  • 使用 kv-cache 复用历史状态
  • 支持流式输出和实时交互

关键技术

  • Causal Streaming Generation: 因果时间顺序生成,帧/块依次产生
  • KV-Cache 管理: 持久化缓存,限制缓存大小以控制计算量
  • 漂移控制:长时序自回归容易积累误差,需要 drift mitigation

代表性模型

  • MaineCoon: 实时音视频自回归模型(maineCoon22B47.5 FPS
  • 其他流式视频生成模型VideoGPT, TATS 等

相关概念