20260625:很多新内容
This commit is contained in:
38
concepts/audio-visual-generation.md
Normal file
38
concepts/audio-visual-generation.md
Normal file
@@ -0,0 +1,38 @@
|
||||
---
|
||||
title: "Audio-Visual Generation"
|
||||
created: 2026-06-20
|
||||
updated: 2026-06-20
|
||||
type: concept
|
||||
tags: ["generation", "audio", "video", "multimodal"]
|
||||
sources: ["https://arxiv.org/abs/2606.17800"]
|
||||
---
|
||||
|
||||
# Audio-Visual Generation (音视频联合生成)
|
||||
|
||||
**Audio-Visual Generation** 是指同时生成视频和音频的生成范式,要求画面运动、语音、环境音在时序上紧密同步。
|
||||
|
||||
## 与传统视频生成的区别
|
||||
|
||||
传统 [[diffusion-transformer|视频扩散模型]] 通常仅处理视觉信号,或仅将音频作为条件输入。真正的音视频联合生成需要:
|
||||
- **联合潜空间**:视觉和音频在共享的时间轴上表示为对齐的 latent chunk
|
||||
- **因果时间建模**:逐块自回归生成,保持时间一致性
|
||||
- **跨模态同步**:唇音对齐、表情与语音节奏匹配
|
||||
|
||||
## 挑战
|
||||
|
||||
- 长时序生成中的内容漂移([[drifting|temporal drift]])
|
||||
- 跨模态表示对齐的困难
|
||||
- 实时推理的延迟约束
|
||||
- 单 GPU 上的计算效率
|
||||
|
||||
## 代表性工作
|
||||
|
||||
- **LTX-2.3**: 22B 开源音视频扩散模型,非因果、离线生成
|
||||
- **MaineCoon**: 22B 实时流式音视频自回归模型([[maineCoon]]),47.5 FPS,单 GPU
|
||||
- 传统方法:Video Diffusion + 独立 Audio Diffusion 拼接
|
||||
|
||||
## 相关概念
|
||||
- [[streaming-generation|流式生成]]
|
||||
- [[autoregressive-video-generation|自回归视频生成]]
|
||||
- [[social-video|社交视频]]
|
||||
- [[audio-visual-representation-alignment|跨模态表示对齐]]
|
||||
Reference in New Issue
Block a user