20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/audio-visual-generation.md
+++ b/concepts/audio-visual-generation.md
@@ -0,0 +1,38 @@
+---
+title: "Audio-Visual Generation"
+created: 2026-06-20
+updated: 2026-06-20
+type: concept
+tags: ["generation", "audio", "video", "multimodal"]
+sources: ["https://arxiv.org/abs/2606.17800"]
+---
+
+# Audio-Visual Generation (音视频联合生成)
+
+**Audio-Visual Generation** 是指同时生成视频和音频的生成范式，要求画面运动、语音、环境音在时序上紧密同步。
+
+## 与传统视频生成的区别
+
+传统 [[diffusion-transformer|视频扩散模型]] 通常仅处理视觉信号，或仅将音频作为条件输入。真正的音视频联合生成需要：
+- **联合潜空间**：视觉和音频在共享的时间轴上表示为对齐的 latent chunk
+- **因果时间建模**：逐块自回归生成，保持时间一致性
+- **跨模态同步**：唇音对齐、表情与语音节奏匹配
+
+## 挑战
+
+- 长时序生成中的内容漂移（[[drifting|temporal drift]]）
+- 跨模态表示对齐的困难
+- 实时推理的延迟约束
+- 单 GPU 上的计算效率
+
+## 代表性工作
+
+- **LTX-2.3**: 22B 开源音视频扩散模型，非因果、离线生成
+- **MaineCoon**: 22B 实时流式音视频自回归模型（[[maineCoon]]），47.5 FPS，单 GPU
+- 传统方法：Video Diffusion + 独立 Audio Diffusion 拼接
+
+## 相关概念
+- [[streaming-generation|流式生成]]
+- [[autoregressive-video-generation|自回归视频生成]]
+- [[social-video|社交视频]]
+- [[audio-visual-representation-alignment|跨模态表示对齐]]