SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.6 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

World Models in RL

2026-06-10

2026-06-10

concept

model-based-rl

deep-rl

world-models

planning

predictive-representations-scalable-mtrl

World Models in RL

World Models 是 model-based RL 中学习环境动力学模型的范式：agent 在潜空间中学习转移函数，并利用该模型进行规划或模拟。

代表性方法

方法	核心
Dreamer (Hafner et al.)	RSSM + 潜空间想象
TD-MPC2	时差学习 + MPC 规划
Newt (Hansen et al., 2026)	大规模多任务 world model

优势

密集监督：预测未来状态提供丰富的学习信号
样本效率：潜空间 rollout 减少环境交互需求
规划能力：可以进行 lookahead 决策

代价

计算开销：潜空间 rollout 和规划增加 wall-clock 时间
模型误差累积：rollout 越长，预测越不准确
超参数敏感性：规划 horizon、rollout 次数等
实现复杂度：需要维护 world model + policy + value

核心争议

predictive-representations-scalable-mtrl 提出：world model 的好处主要来自预测表征学习，而非规划本身。MR.Q（无规划，仅预测表征）在效率和性能上均超越 Newt（world model + 规划）。

这暗示当前的 model-based RL 方法可能是"杀鸡用牛刀"——规划是不必要的计算负担。

参考