Files
myWiki/concepts/model-free-rl.md

1.5 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Model-Free 强化学习 (Model-Free RL) 2026-06-10 2026-06-10 concept
deep-rl
reinforcement-learning
predictive-representations-scalable-mtrl

Model-Free 强化学习 (Model-Free RL)

Model-Free RL 直接学习策略或价值函数,不显式建模环境动力学。与之相对的是 model-based RL后者学习转移模型 T(s'|s,a) 和奖励模型 R(s,a)。

经典算法

类型 算法
Value-based DQN, Rainbow
Policy-based PPO, TRPO
Actor-Critic TD3, SAC

优势

  • 简单:无需维护 world model
  • 高效:每步仅需一次前向传播
  • 稳定:无模型误差累积问题

传统局限

  • 样本效率低:无 model 辅助 → 需更多环境交互
  • 表征质量差:仅靠 TD 误差驱动 → 稀疏信号
  • Scaling 差:模型增大无收益(甚至退化)

新范式Model-Free + 预测表征

predictive-representations-scalable-mtrl 证明:通过在 model-free agentmrq-algorithm)中加入auxiliary-predictive-objectives,可以同时获得:

  • Model-free 的简单高效
  • Model-based 的表征学习优势
  • 无需规划的代价

这代表了 model-free 和 model-based 之间的第三条路

参考