Files
myWiki/concepts/auxiliary-predictive-objectives.md

1.9 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
辅助预测目标 (Auxiliary Predictive Objectives) 2026-06-10 2026-06-10 concept
deep-rl
representation-learning
self-supervised-learning
predictive-representations-scalable-mtrl

辅助预测目标 (Auxiliary Predictive Objectives)

在深度RL中辅助预测目标是与主TD目标并行训练的额外损失函数用于提供密集监督信号以改善表征学习。

标准预测目标

从潜状态 z_t 和动作 a_t 预测:

  1. 下一潜状态 z_{t+1}:动力学预测 → 捕捉因果关系
  2. 即时奖励 r_t奖励预测 → 任务相关信号
  3. 终止信号 d_t终止预测 → episode 结构

梯度流

预测目标的梯度回传至编码器 phi

L_pred = ||phi(s_{t+1}) - f_pred(z_t, a_t)||^2

编码器同时接收 TD 损失和预测损失的梯度 → 学习到同时支持值函数近似和动力学预测的表征。

在 MR.Q 中的实现

mrq-algorithm 使用潜空间预测(非像素空间),将预测目标直接作用于编码器输出的 z_t避免高维重建的计算开销。

为什么有效

信号类型 稀疏性 平稳性 跨任务泛化
奖励信号 稀疏 非平稳
预测目标 密集 相对平稳

预测目标提供每个 transition 的监督(而非仅奖励时刻),且动力学预测是任务无关的 → 天然适合多任务迁移。

与 Planning 的本质区别

预测目标学习的模型仅用于表征塑造——不做前向 rollout。这避免了模型误差累积和计算开销同时保留了预测监督的表征收益。

参考