2.1 KiB
2.1 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Asymmetric Grounding Adherence Loss (L_AGA) | 2026-06-23 | 2026-06-23 | concept |
|
|
Asymmetric Grounding Adherence Loss (L_AGA)
L_AGA 是 Hazare (2026) 提出的首个针对异质接地源、具有不兼容容忍结构的 rollout-drift 防止损失。
动机
dcgwm 中的 L_PGC 和 L_SBGC 仅在训练时的单步上接地——不能保证多步展开的预测轨迹保持接地。rollout-drift 是长视距下潜在世界模型的中心失效模式。
公式
L_AGA = L_AGA_p(z_p^{1:T}) + L_AGA_b(z_b^{1:T})
物理 Adherence — 平方铰链惩罚
L_AGA_p = (1/T) · Σ_t max(0, d_p(z_p^{(t)}, G_p^{(t)}) − ε_p)²
- d_p 度量与物理接地流形 G_p 的距离
- ε_p 是硬物理容忍阈值
- 容忍范围内惩罚为零(允许测量噪声)
- 超出阈值后二次增长——物理违反是范畴错误
行为 Adherence — 软 KL 散度
L_AGA_b = (1/T) · Σ_t KL(q_b(z_b^{(t)}) ∥ p_b^{(t)})
- q_b 是 rollout 诱导的 Z_b 分布
- p_b^{(t)} 是 SBGC 锚定的行为分布
- KL 散度提供与分布距离成比例的连续惩罚——行为随机性是预期内的
为什么不对称
不对称性不是任意设计选择——它反映并强化了物理和行为接地统计量的结构性不兼容:
| 维度 | 物理 | 行为 |
|---|---|---|
| 误差性质 | 范畴错误 | 分布距离 |
| 惩罚形状 | 硬铰链 | 软 KL |
| 容忍结构 | 硬阈值 ε_p | 连续缩放 |
| 梯度特征 | 超出阈值→大梯度 | 按分布距离比例 |
梯度流同样遵守内向约束:L_AGA_p 仅更新 W_p,L_AGA_b 仅更新 W_b。
操作化
p_b^{(t)} 通过摊销投影获得:SBGC 对齐阶段训练的 enc_b 将模拟轨迹窗口参数化映射到 Z_b,在 rollout 时冻结该编码器读取分布锚点。