Files
myWiki/concepts/audio-visual-generation.md

1.4 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Audio-Visual Generation 2026-06-20 2026-06-20 concept
generation
audio
video
multimodal
https://arxiv.org/abs/2606.17800

Audio-Visual Generation (音视频联合生成)

Audio-Visual Generation 是指同时生成视频和音频的生成范式,要求画面运动、语音、环境音在时序上紧密同步。

与传统视频生成的区别

传统 diffusion-transformer 通常仅处理视觉信号,或仅将音频作为条件输入。真正的音视频联合生成需要:

  • 联合潜空间:视觉和音频在共享的时间轴上表示为对齐的 latent chunk
  • 因果时间建模:逐块自回归生成,保持时间一致性
  • 跨模态同步:唇音对齐、表情与语音节奏匹配

挑战

  • 长时序生成中的内容漂移(drifting
  • 跨模态表示对齐的困难
  • 实时推理的延迟约束
  • 单 GPU 上的计算效率

代表性工作

  • LTX-2.3: 22B 开源音视频扩散模型,非因果、离线生成
  • MaineCoon: 22B 实时流式音视频自回归模型(maineCoon47.5 FPS单 GPU
  • 传统方法Video Diffusion + 独立 Audio Diffusion 拼接

相关概念