20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/auxiliary-predictive-objectives.md
+++ b/concepts/auxiliary-predictive-objectives.md
@@ -0,0 +1,51 @@
+---
+title: "辅助预测目标 (Auxiliary Predictive Objectives)"
+created: 2026-06-10
+updated: 2026-06-10
+type: concept
+tags: ["deep-rl", "representation-learning", "self-supervised-learning"]
+sources: ["[[predictive-representations-scalable-mtrl]]"]
+---
+
+# 辅助预测目标 (Auxiliary Predictive Objectives)
+
+在深度RL中，**辅助预测目标**是与主TD目标并行训练的额外损失函数，用于提供密集监督信号以改善表征学习。
+
+## 标准预测目标
+
+从潜状态 z_t 和动作 a_t 预测：
+
+1. **下一潜状态** z_{t+1}：动力学预测 → 捕捉因果关系
+2. **即时奖励** r_t：奖励预测 → 任务相关信号
+3. **终止信号** d_t：终止预测 → episode 结构
+
+## 梯度流
+
+预测目标的梯度**回传至编码器** phi：
+```
+L_pred = ||phi(s_{t+1}) - f_pred(z_t, a_t)||^2
+```
+
+编码器同时接收 TD 损失和预测损失的梯度 → 学习到同时支持值函数近似和动力学预测的表征。
+
+## 在 MR.Q 中的实现
+
+[[mrq-algorithm|MR.Q]] 使用潜空间预测（非像素空间），将预测目标直接作用于编码器输出的 z_t，避免高维重建的计算开销。
+
+## 为什么有效
+
+| 信号类型 | 稀疏性 | 平稳性 | 跨任务泛化 |
+|---------|-------|--------|----------|
+| 奖励信号 | 稀疏 | 非平稳 | 差 |
+| 预测目标 | 密集 | 相对平稳 | 好 |
+
+预测目标提供**每个 transition** 的监督（而非仅奖励时刻），且动力学预测是任务无关的 → 天然适合多任务迁移。
+
+## 与 Planning 的本质区别
+
+预测目标学习的模型仅用于**表征塑造**——不做前向 rollout。这避免了模型误差累积和计算开销，同时保留了预测监督的表征收益。
+
+## 参考
+- [[predictive-representations-scalable-mtrl|Scalable Multitask Deep RL]]
+- [[mrq-algorithm|MR.Q]]
+- [[predictive-representation-learning|Predictive Representation Learning]]