1.5 KiB
1.5 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||
|---|---|---|---|---|---|---|---|---|
| Model-Free 强化学习 (Model-Free RL) | 2026-06-10 | 2026-06-10 | concept |
|
|
Model-Free 强化学习 (Model-Free RL)
Model-Free RL 直接学习策略或价值函数,不显式建模环境动力学。与之相对的是 model-based RL,后者学习转移模型 T(s'|s,a) 和奖励模型 R(s,a)。
经典算法
| 类型 | 算法 |
|---|---|
| Value-based | DQN, Rainbow |
| Policy-based | PPO, TRPO |
| Actor-Critic | TD3, SAC |
优势
- 简单:无需维护 world model
- 高效:每步仅需一次前向传播
- 稳定:无模型误差累积问题
传统局限
- 样本效率低:无 model 辅助 → 需更多环境交互
- 表征质量差:仅靠 TD 误差驱动 → 稀疏信号
- Scaling 差:模型增大无收益(甚至退化)
新范式:Model-Free + 预测表征
predictive-representations-scalable-mtrl 证明:通过在 model-free agent(如 mrq-algorithm)中加入auxiliary-predictive-objectives,可以同时获得:
- Model-free 的简单高效
- Model-based 的表征学习优势
- 无需规划的代价
这代表了 model-free 和 model-based 之间的第三条路。