SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.5 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Model-Free 强化学习 (Model-Free RL)

2026-06-10

2026-06-10

concept

deep-rl

reinforcement-learning

predictive-representations-scalable-mtrl

Model-Free 强化学习 (Model-Free RL)

Model-Free RL 直接学习策略或价值函数，不显式建模环境动力学。与之相对的是 model-based RL，后者学习转移模型 T(s'|s,a) 和奖励模型 R(s,a)。

经典算法

类型	算法
Value-based	DQN, Rainbow
Policy-based	PPO, TRPO
Actor-Critic	TD3, SAC

优势

简单：无需维护 world model
高效：每步仅需一次前向传播
稳定：无模型误差累积问题

传统局限

样本效率低：无 model 辅助 → 需更多环境交互
表征质量差：仅靠 TD 误差驱动 → 稀疏信号
Scaling 差：模型增大无收益（甚至退化）

新范式：Model-Free + 预测表征

predictive-representations-scalable-mtrl 证明：通过在 model-free agent（如 mrq-algorithm）中加入auxiliary-predictive-objectives，可以同时获得：

Model-free 的简单高效
Model-based 的表征学习优势
无需规划的代价

这代表了 model-free 和 model-based 之间的第三条路。

参考