Files
myWiki/concepts/asymmetric-grounding-adherence-loss.md

68 lines
2.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Asymmetric Grounding Adherence Loss (L_AGA)"
created: 2026-06-23
updated: 2026-06-23
type: concept
tags: ["loss-function", "rollout-drift", "regularization", "world-modeling"]
sources: ["[[hazare-dcgwm-2026]]", "https://arxiv.org/abs/2606.18688"]
---
# Asymmetric Grounding Adherence Loss (L_AGA)
**L_AGA** 是 Hazare (2026) 提出的首个针对异质接地源、具有不兼容容忍结构的 [[rollout-drift|rollout drift]] 防止损失。
## 动机
[[dcgwm|DCGWM]] 中的 L_PGC 和 L_SBGC 仅在训练时的单步上接地——不能保证多步展开的预测轨迹保持接地。[[rollout-drift|Rollout drift]] 是长视距下潜在世界模型的中心失效模式。
## 公式
```
L_AGA = L_AGA_p(z_p^{1:T}) + L_AGA_b(z_b^{1:T})
```
### 物理 Adherence — 平方铰链惩罚
```
L_AGA_p = (1/T) · Σ_t max(0, d_p(z_p^{(t)}, G_p^{(t)}) ε_p)²
```
- d_p 度量与物理接地流形 G_p 的距离
- ε_p 是硬物理容忍阈值
- 容忍范围内惩罚为零(允许测量噪声)
- 超出阈值后二次增长——物理违反是范畴错误
### 行为 Adherence — 软 KL 散度
```
L_AGA_b = (1/T) · Σ_t KL(q_b(z_b^{(t)}) ∥ p_b^{(t)})
```
- q_b 是 rollout 诱导的 Z_b 分布
- p_b^{(t)} 是 SBGC 锚定的行为分布
- KL 散度提供与分布距离成比例的连续惩罚——行为随机性是预期内的
## 为什么不对称
不对称性不是任意设计选择——它**反映并强化**了物理和行为接地统计量的结构性不兼容:
| 维度 | 物理 | 行为 |
|------|------|------|
| 误差性质 | 范畴错误 | 分布距离 |
| 惩罚形状 | 硬铰链 | 软 KL |
| 容忍结构 | 硬阈值 ε_p | 连续缩放 |
| 梯度特征 | 超出阈值→大梯度 | 按分布距离比例 |
梯度流同样遵守内向约束L_AGA_p 仅更新 W_pL_AGA_b 仅更新 W_b。
## 操作化
p_b^{(t)} 通过**摊销投影**获得SBGC 对齐阶段训练的 enc_b 将模拟轨迹窗口参数化映射到 Z_b在 rollout 时冻结该编码器读取分布锚点。
## 参考
- [[hazare-dcgwm-2026|DCGWM 论文]]
- [[rollout-drift|Rollout Drift]]
- [[dcgwm|DCGWM]]
- [[objective-interference-collapse|OIC]]