Files
myWiki/papers/predictive-representations-scalable-mtrl.md

2.9 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
预测表征驱动可扩展多任务深度强化学习 2026-06-10 2026-06-10 paper
deep-rl
multitask-learning
representation-learning
model-free-rl
scaling
https://arxiv.org/abs/2606.05555

预测表征驱动可扩展多任务深度RL

Authors: Johan Obando-Ceron, Lu Li, Scott Fujimoto, Pierre-Luc Bacon, Aaron Courville, Pablo Samuel Castro Venue: arXiv:2606.05555v1 [cs.LG, cs.AI], 2026 Affiliations: Mila, UdeM, McGill, Google DeepMind

核心假说

多任务RL的可扩展性驱动力不是 model-based 规划,而是预测性表征学习。将 model-based 的预测表征与高容量价值函数近似结合,即使不做规划,也足以获得强大性能。

背景Model-Based vs Model-Free 的争论

近年多任务RL的重大进展主要由 world-models-rl 方法驱动Dreamer, TD-MPC2, Newt但这些方法捆绑了多个组件预测建模 + 潜空间规划 + 大共享架构。问题是——哪一部分真正驱动了性能提升?

本文的核心洞察:规划本身引入计算开销、超参数敏感性和模型误差累积。真正的好处来自预测目标学习的表征。

MR.Q 算法

mrq-algorithmFujimoto et al., 2025是一个纯粹的 model-free agent将预测目标整合进 TD 学习:

  • 基于 TD3 (Fujimoto et al., 2018) 的 actor-critic 架构
  • 编码器将观测+任务信息映射到潜空间 z_t
  • auxiliary-predictive-objectives:预测 (z_{t+1}, r_t, d_t) 从 (z_t, a_t)
  • 预测梯度回传至编码器,塑造表征
  • 不做规划——学习到的模型仅用于表征塑造

关键实验结果

单任务 ScalingFig. 1

  • 标准 PPO 随模型增大无收益甚至退化
  • PPO + 预测表征 → 持续随规模提升
  • 表征质量是 scaling 的瓶颈

多任务 MMBench10M steps

  • MR.Q 在全部 10 个域上一致超越 Newtworld-model baseline
  • 显著降低计算开销,提升 wall-clock 效率
  • 更强的零样本迁移和少样本微调能力

Ablation

  • 移除预测目标后性能大幅退化,即使模型规模很大
  • 预测表征学习是关键——不是可选的辅助

核心论点

预测表征学习 → 更好的潜空间结构 → 稳定的 TD 学习 → 可扩展多任务 RL

规划不是必需的——预测建模的真正价值在于它提供的丰富监督信号,而非显式的未来模拟。

相关概念

来源