Files
myWiki/papers/predictive-representations-scalable-mtrl.md

73 lines
2.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "预测表征驱动可扩展多任务深度强化学习"
created: 2026-06-10
updated: 2026-06-10
type: paper
tags: ["deep-rl", "multitask-learning", "representation-learning", "model-free-rl", "scaling"]
sources: ["https://arxiv.org/abs/2606.05555"]
---
# 预测表征驱动可扩展多任务深度RL
**Authors**: Johan Obando-Ceron, Lu Li, Scott Fujimoto, Pierre-Luc Bacon, Aaron Courville, Pablo Samuel Castro
**Venue**: arXiv:2606.05555v1 [cs.LG, cs.AI], 2026
**Affiliations**: Mila, UdeM, McGill, Google DeepMind
## 核心假说
多任务RL的可扩展性驱动力不是 model-based 规划,而是**预测性表征学习**。将 model-based 的预测表征与高容量价值函数近似结合,即使不做规划,也足以获得强大性能。
## 背景Model-Based vs Model-Free 的争论
近年多任务RL的重大进展主要由 [[world-models-rl|world model]] 方法驱动Dreamer, TD-MPC2, Newt但这些方法捆绑了多个组件预测建模 + 潜空间规划 + 大共享架构。问题是——**哪一部分真正驱动了性能提升?**
本文的核心洞察:规划本身引入计算开销、超参数敏感性和模型误差累积。真正的好处来自预测目标学习的表征。
## MR.Q 算法
[[mrq-algorithm|MR.Q]]Fujimoto et al., 2025是一个纯粹的 model-free agent将预测目标整合进 TD 学习:
- 基于 TD3 (Fujimoto et al., 2018) 的 actor-critic 架构
- 编码器将观测+任务信息映射到潜空间 z_t
- [[auxiliary-predictive-objectives|辅助预测目标]]:预测 (z_{t+1}, r_t, d_t) 从 (z_t, a_t)
- 预测梯度回传至编码器,塑造表征
- **不做规划**——学习到的模型仅用于表征塑造
## 关键实验结果
### 单任务 ScalingFig. 1
- 标准 PPO 随模型增大无收益甚至退化
- PPO + 预测表征 → 持续随规模提升
- 表征质量是 scaling 的瓶颈
### 多任务 MMBench10M steps
- MR.Q 在全部 10 个域上一致超越 Newtworld-model baseline
- 显著降低计算开销,提升 wall-clock 效率
- 更强的零样本迁移和少样本微调能力
### Ablation
- 移除预测目标后性能大幅退化,即使模型规模很大
- 预测表征学习是关键——不是可选的辅助
## 核心论点
```
预测表征学习 → 更好的潜空间结构 → 稳定的 TD 学习 → 可扩展多任务 RL
```
规划不是必需的——预测建模的真正价值在于它提供的**丰富监督信号**,而非显式的未来模拟。
## 相关概念
- [[predictive-representation-learning|预测表征学习]]
- [[mrq-algorithm|MR.Q]]
- [[multitask-rl|多任务RL]]
- [[representation-learning-rl|RL中的表征学习]]
- [[auxiliary-predictive-objectives|辅助预测目标]]
- [[world-models-rl|World Models]]
- [[model-free-rl|Model-Free RL]]
- [[deep-rl-scaling|扩展深度RL]]
## 来源
- [arXiv](https://arxiv.org/abs/2606.05555)
- [原始存档](raw/papers/obando-ceron-predictive-representations-mtrl-2026.md)