Files
myWiki/concepts/audio-visual-representation-alignment.md

2.2 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Audio-Visual Representation Alignment 2026-06-20 2026-06-20 concept
representation
alignment
audio-visual
training
jepa
https://arxiv.org/abs/2606.17800

Audio-Visual Representation Alignment (音视频表示对齐)

Audio-Visual Representation AlignmentmaineCoon 中通过 jepa teacher 的 token relation distillation 加速流式音视频训练的技术。

注意:此概念不同于 LLM 中的 representation-alignmentTST 中的 embedding 不变性)。此处特指音视频扩散模型中的中间层特征对齐。

动机:流式训练的可视语义获取缓慢

从零训练大规模音视频 DiT 时,flow-matching loss 仅监督低级重建,对语义结构仅施加弱压力。连贯运动和音视频对应关系在训练后期才涌现。

Token Relation Distillation

MaineCoon 采用 VideoREPA 的关系对齐策略:

1. Teacher 特征提取

  • Teacher: 冻结的 V-JEPA 2 编码器
  • 对训练 clip 采样帧resize 使其 patch grid 与 visual latent grid 对齐
  • 输出特征体 Y ∈ R^{F×S×d_tea},与 visual latent token 一一对应

2. 关系矩阵匹配

在选定的中间层,将 noisy visual target hidden states 投影到 teacher space然后匹配成对 token 关系矩阵

R(a)_{mn} = a_m^T a_n / (‖a_m‖₂ ‖a_n‖₂)

对齐关系而非绝对特征值 — 让 generator 保留自己的表示基。

3. Hinge-Margin Loss

L_TRD = (1/N²) Σ ReLU(R(Ŷ)_{mn} - R(Y)_{mn} - γ)

margin γ 忽略小的关系差异,更稳定。

与 Native Streaming Training 的集成

  • 对齐 loss 作为辅助目标加入
  • 仅在 visual target half 上计算audio stream 不约束)
  • 仅在 main gradient forward pass 上启用self-resampling rollout 禁用)
  • Teacher 冻结且特征预计算,训练时无额外 teacher forward pass

效果

  • 大幅减少达到连贯运动和 AV 对应所需的训练步数
  • 提升最终生成质量

参考