SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.6 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Autoregressive Video Generation

2026-06-20

2026-06-20

concept

generation

video

autoregressive

causal

https://arxiv.org/abs/2606.17800

Autoregressive Video Generation (自回归视频生成)

Autoregressive Video Generation 是将视频生成建模为逐帧/逐块因果生成的过程：每一帧依赖之前生成的帧，而不访问未来信息。

与双向扩散模型的核心差异

传统 diffusion-transformer 视频模型使用双向时间注意力（bidirectional temporal attention），在生成过程中所有帧相互依赖。这带来两个问题：

非实时：中间帧在全部去噪完成前无法输出
计算随长度增长：自注意力成本随序列长度平方增长

自回归视频生成通过因果注意力（causal attention）解决：

逐块生成，每块仅依赖历史
使用 kv-cache 复用历史状态
支持流式输出和实时交互

关键技术

Causal Streaming Generation: 因果时间顺序生成，帧/块依次产生
KV-Cache 管理: 持久化缓存，限制缓存大小以控制计算量
漂移控制：长时序自回归容易积累误差，需要 drift mitigation

代表性模型

MaineCoon: 实时音视频自回归模型（maineCoon），22B，47.5 FPS
其他流式视频生成模型：VideoGPT, TATS 等

相关概念