Files
myWiki/concepts/asymmetric-grounding-adherence-loss.md

2.1 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Asymmetric Grounding Adherence Loss (L_AGA) 2026-06-23 2026-06-23 concept
loss-function
rollout-drift
regularization
world-modeling
hazare-dcgwm-2026
https://arxiv.org/abs/2606.18688

Asymmetric Grounding Adherence Loss (L_AGA)

L_AGA 是 Hazare (2026) 提出的首个针对异质接地源、具有不兼容容忍结构的 rollout-drift 防止损失。

动机

dcgwm 中的 L_PGC 和 L_SBGC 仅在训练时的单步上接地——不能保证多步展开的预测轨迹保持接地。rollout-drift 是长视距下潜在世界模型的中心失效模式。

公式

L_AGA = L_AGA_p(z_p^{1:T}) + L_AGA_b(z_b^{1:T})

物理 Adherence — 平方铰链惩罚

L_AGA_p = (1/T) · Σ_t max(0, d_p(z_p^{(t)}, G_p^{(t)})  ε_p)²
  • d_p 度量与物理接地流形 G_p 的距离
  • ε_p 是硬物理容忍阈值
  • 容忍范围内惩罚为零(允许测量噪声)
  • 超出阈值后二次增长——物理违反是范畴错误

行为 Adherence — 软 KL 散度

L_AGA_b = (1/T) · Σ_t KL(q_b(z_b^{(t)}) ∥ p_b^{(t)})
  • q_b 是 rollout 诱导的 Z_b 分布
  • p_b^{(t)} 是 SBGC 锚定的行为分布
  • KL 散度提供与分布距离成比例的连续惩罚——行为随机性是预期内的

为什么不对称

不对称性不是任意设计选择——它反映并强化了物理和行为接地统计量的结构性不兼容:

维度 物理 行为
误差性质 范畴错误 分布距离
惩罚形状 硬铰链 软 KL
容忍结构 硬阈值 ε_p 连续缩放
梯度特征 超出阈值→大梯度 按分布距离比例

梯度流同样遵守内向约束L_AGA_p 仅更新 W_pL_AGA_b 仅更新 W_b。

操作化

p_b^{(t)} 通过摊销投影获得SBGC 对齐阶段训练的 enc_b 将模拟轨迹窗口参数化映射到 Z_b在 rollout 时冻结该编码器读取分布锚点。

参考