20260625:很多新内容
This commit is contained in:
67
concepts/asymmetric-grounding-adherence-loss.md
Normal file
67
concepts/asymmetric-grounding-adherence-loss.md
Normal file
@@ -0,0 +1,67 @@
|
||||
---
|
||||
title: "Asymmetric Grounding Adherence Loss (L_AGA)"
|
||||
created: 2026-06-23
|
||||
updated: 2026-06-23
|
||||
type: concept
|
||||
tags: ["loss-function", "rollout-drift", "regularization", "world-modeling"]
|
||||
sources: ["[[hazare-dcgwm-2026]]", "https://arxiv.org/abs/2606.18688"]
|
||||
---
|
||||
|
||||
# Asymmetric Grounding Adherence Loss (L_AGA)
|
||||
|
||||
**L_AGA** 是 Hazare (2026) 提出的首个针对异质接地源、具有不兼容容忍结构的 [[rollout-drift|rollout drift]] 防止损失。
|
||||
|
||||
## 动机
|
||||
|
||||
[[dcgwm|DCGWM]] 中的 L_PGC 和 L_SBGC 仅在训练时的单步上接地——不能保证多步展开的预测轨迹保持接地。[[rollout-drift|Rollout drift]] 是长视距下潜在世界模型的中心失效模式。
|
||||
|
||||
## 公式
|
||||
|
||||
```
|
||||
L_AGA = L_AGA_p(z_p^{1:T}) + L_AGA_b(z_b^{1:T})
|
||||
```
|
||||
|
||||
### 物理 Adherence — 平方铰链惩罚
|
||||
|
||||
```
|
||||
L_AGA_p = (1/T) · Σ_t max(0, d_p(z_p^{(t)}, G_p^{(t)}) − ε_p)²
|
||||
```
|
||||
|
||||
- d_p 度量与物理接地流形 G_p 的距离
|
||||
- ε_p 是硬物理容忍阈值
|
||||
- 容忍范围内惩罚为零(允许测量噪声)
|
||||
- 超出阈值后二次增长——物理违反是范畴错误
|
||||
|
||||
### 行为 Adherence — 软 KL 散度
|
||||
|
||||
```
|
||||
L_AGA_b = (1/T) · Σ_t KL(q_b(z_b^{(t)}) ∥ p_b^{(t)})
|
||||
```
|
||||
|
||||
- q_b 是 rollout 诱导的 Z_b 分布
|
||||
- p_b^{(t)} 是 SBGC 锚定的行为分布
|
||||
- KL 散度提供与分布距离成比例的连续惩罚——行为随机性是预期内的
|
||||
|
||||
## 为什么不对称
|
||||
|
||||
不对称性不是任意设计选择——它**反映并强化**了物理和行为接地统计量的结构性不兼容:
|
||||
|
||||
| 维度 | 物理 | 行为 |
|
||||
|------|------|------|
|
||||
| 误差性质 | 范畴错误 | 分布距离 |
|
||||
| 惩罚形状 | 硬铰链 | 软 KL |
|
||||
| 容忍结构 | 硬阈值 ε_p | 连续缩放 |
|
||||
| 梯度特征 | 超出阈值→大梯度 | 按分布距离比例 |
|
||||
|
||||
梯度流同样遵守内向约束:L_AGA_p 仅更新 W_p,L_AGA_b 仅更新 W_b。
|
||||
|
||||
## 操作化
|
||||
|
||||
p_b^{(t)} 通过**摊销投影**获得:SBGC 对齐阶段训练的 enc_b 将模拟轨迹窗口参数化映射到 Z_b,在 rollout 时冻结该编码器读取分布锚点。
|
||||
|
||||
## 参考
|
||||
|
||||
- [[hazare-dcgwm-2026|DCGWM 论文]]
|
||||
- [[rollout-drift|Rollout Drift]]
|
||||
- [[dcgwm|DCGWM]]
|
||||
- [[objective-interference-collapse|OIC]]
|
||||
Reference in New Issue
Block a user