20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/papers/predictive-representations-scalable-mtrl.md
+++ b/papers/predictive-representations-scalable-mtrl.md
@@ -0,0 +1,72 @@
+---
+title: "预测表征驱动可扩展多任务深度强化学习"
+created: 2026-06-10
+updated: 2026-06-10
+type: paper
+tags: ["deep-rl", "multitask-learning", "representation-learning", "model-free-rl", "scaling"]
+sources: ["https://arxiv.org/abs/2606.05555"]
+---
+
+# 预测表征驱动可扩展多任务深度RL
+
+**Authors**: Johan Obando-Ceron, Lu Li, Scott Fujimoto, Pierre-Luc Bacon, Aaron Courville, Pablo Samuel Castro
+**Venue**: arXiv:2606.05555v1 [cs.LG, cs.AI], 2026
+**Affiliations**: Mila, UdeM, McGill, Google DeepMind
+
+## 核心假说
+
+多任务RL的可扩展性驱动力不是 model-based 规划，而是**预测性表征学习**。将 model-based 的预测表征与高容量价值函数近似结合，即使不做规划，也足以获得强大性能。
+
+## 背景：Model-Based vs Model-Free 的争论
+
+近年多任务RL的重大进展主要由 [[world-models-rl|world model]] 方法驱动（Dreamer, TD-MPC2, Newt），但这些方法捆绑了多个组件：预测建模 + 潜空间规划 + 大共享架构。问题是——**哪一部分真正驱动了性能提升？**
+
+本文的核心洞察：规划本身引入计算开销、超参数敏感性和模型误差累积。真正的好处来自预测目标学习的表征。
+
+## MR.Q 算法
+
+[[mrq-algorithm|MR.Q]]（Fujimoto et al., 2025）是一个纯粹的 model-free agent，将预测目标整合进 TD 学习：
+
+- 基于 TD3 (Fujimoto et al., 2018) 的 actor-critic 架构
+- 编码器将观测+任务信息映射到潜空间 z_t
+- [[auxiliary-predictive-objectives|辅助预测目标]]：预测 (z_{t+1}, r_t, d_t) 从 (z_t, a_t)
+- 预测梯度回传至编码器，塑造表征
+- **不做规划**——学习到的模型仅用于表征塑造
+
+## 关键实验结果
+
+### 单任务 Scaling（Fig. 1）
+- 标准 PPO 随模型增大无收益甚至退化
+- PPO + 预测表征 → 持续随规模提升
+- 表征质量是 scaling 的瓶颈
+
+### 多任务 MMBench（10M steps）
+- MR.Q 在全部 10 个域上一致超越 Newt（world-model baseline）
+- 显著降低计算开销，提升 wall-clock 效率
+- 更强的零样本迁移和少样本微调能力
+
+### Ablation
+- 移除预测目标后性能大幅退化，即使模型规模很大
+- 预测表征学习是关键——不是可选的辅助
+
+## 核心论点
+
+```
+预测表征学习 → 更好的潜空间结构 → 稳定的 TD 学习 → 可扩展多任务 RL
+```
+
+规划不是必需的——预测建模的真正价值在于它提供的**丰富监督信号**，而非显式的未来模拟。
+
+## 相关概念
+- [[predictive-representation-learning|预测表征学习]]
+- [[mrq-algorithm|MR.Q]]
+- [[multitask-rl|多任务RL]]
+- [[representation-learning-rl|RL中的表征学习]]
+- [[auxiliary-predictive-objectives|辅助预测目标]]
+- [[world-models-rl|World Models]]
+- [[model-free-rl|Model-Free RL]]
+- [[deep-rl-scaling|扩展深度RL]]
+
+## 来源
+- [arXiv](https://arxiv.org/abs/2606.05555)
+- [原始存档](raw/papers/obando-ceron-predictive-representations-mtrl-2026.md)