1.7 KiB
1.7 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Rollout Drift (推演漂移) | 2026-06-23 | 2026-06-23 | concept |
|
|
Rollout Drift (推演漂移)
Rollout drift 是多步潜在预测中的累积误差现象:在自回归展开过程中,每步预测的微小误差逐步叠加,使预测轨迹偏离接地流形。
问题的本质
world-models-rl中的潜在状态 z_t 通过预测函数 f 向前展开:
z_{t+1} = f(z_t, a_t) + ε_t
每步预测误差 ε_t 在后续步骤中被放大——因为下一步的输入 z_{t+1} 包含了误差,而 f 是非线性的。在长视距 (T ≫ 1) 下:
z_T = f(f(...f(z_0, a_0)..., a_{T-2}), a_{T-1}) + 累积误差
为什么特别棘手
GIRL (2026) 将 rollout drift 识别为潜在世界模型在长视距下的中心失效模式。标准方案(如单步对齐损失 L_PGC、L_SBGC)仅在训练时的单步上接地,不能保证多步展开轨迹保持在接地上。
DCGWM 的解决方案:L_AGA
asymmetric-grounding-adherence-loss 是首个针对异质接地源、具有不兼容容忍结构的 rollout drift 损失:
- 物理漂移 → 平方铰链惩罚:违反物理约束是范畴错误,超过容忍阈值后二次惩罚
- 行为漂移 → 软 KL 散度:行为随机性是预期内的,使用与分布距离成比例的连续惩罚