SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.4 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Audio-Visual Generation

2026-06-20

2026-06-20

concept

generation

audio

video

multimodal

https://arxiv.org/abs/2606.17800

Audio-Visual Generation (音视频联合生成)

Audio-Visual Generation 是指同时生成视频和音频的生成范式，要求画面运动、语音、环境音在时序上紧密同步。

与传统视频生成的区别

传统 diffusion-transformer 通常仅处理视觉信号，或仅将音频作为条件输入。真正的音视频联合生成需要：

联合潜空间：视觉和音频在共享的时间轴上表示为对齐的 latent chunk
因果时间建模：逐块自回归生成，保持时间一致性
跨模态同步：唇音对齐、表情与语音节奏匹配

挑战

长时序生成中的内容漂移（drifting）
跨模态表示对齐的困难
实时推理的延迟约束
单 GPU 上的计算效率

代表性工作

LTX-2.3: 22B 开源音视频扩散模型，非因果、离线生成
MaineCoon: 22B 实时流式音视频自回归模型（maineCoon），47.5 FPS，单 GPU
传统方法：Video Diffusion + 独立 Audio Diffusion 拼接

相关概念