Files
myWiki/concepts/autoregressive-video-generation.md

41 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Autoregressive Video Generation"
created: 2026-06-20
updated: 2026-06-20
type: concept
tags: ["generation", "video", "autoregressive", "causal"]
sources: ["https://arxiv.org/abs/2606.17800"]
---
# Autoregressive Video Generation (自回归视频生成)
**Autoregressive Video Generation** 是将视频生成建模为逐帧/逐块因果生成的过程:每一帧依赖之前生成的帧,而不访问未来信息。
## 与双向扩散模型的核心差异
传统 [[diffusion-transformer|DiT]] 视频模型使用**双向时间注意力**bidirectional temporal attention在生成过程中所有帧相互依赖。这带来两个问题
1. **非实时**:中间帧在全部去噪完成前无法输出
2. **计算随长度增长**:自注意力成本随序列长度平方增长
自回归视频生成通过**因果注意力**causal attention解决
- 逐块生成,每块仅依赖历史
- 使用 [[kv-cache|KV-Cache]] 复用历史状态
- 支持流式输出和实时交互
## 关键技术
- **Causal Streaming Generation**: 因果时间顺序生成,帧/块依次产生
- **KV-Cache 管理**: 持久化缓存,限制缓存大小以控制计算量
- **漂移控制**:长时序自回归容易积累误差,需要 drift mitigation
## 代表性模型
- **MaineCoon**: 实时音视频自回归模型([[maineCoon]]22B47.5 FPS
- 其他流式视频生成模型VideoGPT, TATS 等
## 相关概念
- [[streaming-generation|流式生成]]
- [[audio-visual-generation|音视频联合生成]]
- [[kv-cache]]
- [[causal-generation|因果生成]]