Audio-Visual Representation Alignment (音视频表示对齐)

Audio-Visual Representation Alignment 是 maineCoon 中通过 jepa teacher 的 token relation distillation 加速流式音视频训练的技术。

注意：此概念不同于 LLM 中的 representation-alignment（TST 中的 embedding 不变性）。此处特指音视频扩散模型中的中间层特征对齐。

动机：流式训练的可视语义获取缓慢

从零训练大规模音视频 DiT 时，flow-matching loss 仅监督低级重建，对语义结构仅施加弱压力。连贯运动和音视频对应关系在训练后期才涌现。

MaineCoon 采用 VideoREPA 的关系对齐策略：

在选定的中间层，将 noisy visual target hidden states 投影到 teacher space，然后匹配成对 token 关系矩阵：

R(a)_{mn} = a_m^T a_n / (‖a_m‖₂ ‖a_n‖₂)

对齐关系而非绝对特征值 — 让 generator 保留自己的表示基。

L_TRD = (1/N²) Σ ReLU(R(Ŷ)_{mn} - R(Y)_{mn} - γ)

margin γ 忽略小的关系差异，更稳定。