myWiki/concepts/model-free-rl.md

---
title: "Model-Free 强化学习 (Model-Free RL)"
created: 2026-06-10
updated: 2026-06-10
type: concept
tags: ["deep-rl", "reinforcement-learning"]
sources: ["[[predictive-representations-scalable-mtrl]]"]
---

# Model-Free 强化学习 (Model-Free RL)

**Model-Free RL** 直接学习策略或价值函数，不显式建模环境动力学。与之相对的是 model-based RL，后者学习转移模型 T(s'|s,a) 和奖励模型 R(s,a)。

## 经典算法

| 类型 | 算法 |
|------|------|
| Value-based | DQN, Rainbow |
| Policy-based | PPO, TRPO |
| Actor-Critic | TD3, SAC |

## 优势

- **简单**：无需维护 world model
- **高效**：每步仅需一次前向传播
- **稳定**：无模型误差累积问题

## 传统局限

- **样本效率低**：无 model 辅助 → 需更多环境交互
- **表征质量差**：仅靠 TD 误差驱动 → 稀疏信号
- **Scaling 差**：模型增大无收益（甚至退化）

## 新范式：Model-Free + 预测表征

[[predictive-representations-scalable-mtrl|Obando-Ceron et al. (2026)]] 证明：通过在 model-free agent（如 [[mrq-algorithm|MR.Q]]）中加入[[auxiliary-predictive-objectives|辅助预测目标]]，可以同时获得：

- Model-free 的简单高效
- Model-based 的表征学习优势
- 无需规划的代价

这代表了 model-free 和 model-based 之间的**第三条路**。

## 参考
- [[predictive-representations-scalable-mtrl|Scalable Multitask Deep RL]]
- [[mrq-algorithm|MR.Q]]
- [[world-models-rl|World Models]]
- [[predictive-representation-learning|Predictive Representation Learning]]