Files
myWiki/concepts/audio-visual-generation.md

39 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Audio-Visual Generation"
created: 2026-06-20
updated: 2026-06-20
type: concept
tags: ["generation", "audio", "video", "multimodal"]
sources: ["https://arxiv.org/abs/2606.17800"]
---
# Audio-Visual Generation (音视频联合生成)
**Audio-Visual Generation** 是指同时生成视频和音频的生成范式,要求画面运动、语音、环境音在时序上紧密同步。
## 与传统视频生成的区别
传统 [[diffusion-transformer|视频扩散模型]] 通常仅处理视觉信号,或仅将音频作为条件输入。真正的音视频联合生成需要:
- **联合潜空间**:视觉和音频在共享的时间轴上表示为对齐的 latent chunk
- **因果时间建模**:逐块自回归生成,保持时间一致性
- **跨模态同步**:唇音对齐、表情与语音节奏匹配
## 挑战
- 长时序生成中的内容漂移([[drifting|temporal drift]]
- 跨模态表示对齐的困难
- 实时推理的延迟约束
- 单 GPU 上的计算效率
## 代表性工作
- **LTX-2.3**: 22B 开源音视频扩散模型,非因果、离线生成
- **MaineCoon**: 22B 实时流式音视频自回归模型([[maineCoon]]47.5 FPS单 GPU
- 传统方法Video Diffusion + 独立 Audio Diffusion 拼接
## 相关概念
- [[streaming-generation|流式生成]]
- [[autoregressive-video-generation|自回归视频生成]]
- [[social-video|社交视频]]
- [[audio-visual-representation-alignment|跨模态表示对齐]]