Files
myWiki/concepts/auxiliary-predictive-objectives.md

52 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "辅助预测目标 (Auxiliary Predictive Objectives)"
created: 2026-06-10
updated: 2026-06-10
type: concept
tags: ["deep-rl", "representation-learning", "self-supervised-learning"]
sources: ["[[predictive-representations-scalable-mtrl]]"]
---
# 辅助预测目标 (Auxiliary Predictive Objectives)
在深度RL中**辅助预测目标**是与主TD目标并行训练的额外损失函数用于提供密集监督信号以改善表征学习。
## 标准预测目标
从潜状态 z_t 和动作 a_t 预测:
1. **下一潜状态** z_{t+1}:动力学预测 → 捕捉因果关系
2. **即时奖励** r_t奖励预测 → 任务相关信号
3. **终止信号** d_t终止预测 → episode 结构
## 梯度流
预测目标的梯度**回传至编码器** phi
```
L_pred = ||phi(s_{t+1}) - f_pred(z_t, a_t)||^2
```
编码器同时接收 TD 损失和预测损失的梯度 → 学习到同时支持值函数近似和动力学预测的表征。
## 在 MR.Q 中的实现
[[mrq-algorithm|MR.Q]] 使用潜空间预测(非像素空间),将预测目标直接作用于编码器输出的 z_t避免高维重建的计算开销。
## 为什么有效
| 信号类型 | 稀疏性 | 平稳性 | 跨任务泛化 |
|---------|-------|--------|----------|
| 奖励信号 | 稀疏 | 非平稳 | 差 |
| 预测目标 | 密集 | 相对平稳 | 好 |
预测目标提供**每个 transition** 的监督(而非仅奖励时刻),且动力学预测是任务无关的 → 天然适合多任务迁移。
## 与 Planning 的本质区别
预测目标学习的模型仅用于**表征塑造**——不做前向 rollout。这避免了模型误差累积和计算开销同时保留了预测监督的表征收益。
## 参考
- [[predictive-representations-scalable-mtrl|Scalable Multitask Deep RL]]
- [[mrq-algorithm|MR.Q]]
- [[predictive-representation-learning|Predictive Representation Learning]]