SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.7 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

扩展深度强化学习 (Scaling Deep RL)

2026-06-10

2026-06-10

concept

deep-rl

scaling-laws

multitask-learning

predictive-representations-scalable-mtrl

扩展深度强化学习 (Scaling Deep RL)

Scaling Deep RL 关注如何通过增加模型容量、数据量和任务多样性来持续提升RL性能——类似于语言和视觉领域的 scaling laws 研究。

核心挑战

与监督学习不同，RL 的 scaling 面临独特障碍：

非平稳数据：策略更新 → 数据分布变化
Bootstrapping：TD 目标的递归性质放大误差
表征崩溃：大模型在稀疏信号下出现死神经元
损失可塑性：持续训练导致网络失去学习能力

关键发现

predictive-representations-scalable-mtrl 的核心 scaling 发现：

无预测表征：模型增大 → 性能持平或退化
有预测表征：模型增大 → 持续性能提升

→ 表征质量是 scaling 的瓶颈，而非模型容量本身。

与 LLM/Vision Scaling 的对比

维度	LLM/Vision	Deep RL
数据	静态语料库	在线交互
监督	密集	稀疏/非平稳
目标	静态	Bootstrapped
Scaling 瓶颈	数据量	表征质量

实践意义

扩大模型前，先确保表征学习机制到位
predictive-representation-learning是低成本、高回报的 scaling 杠杆
Wall-clock 效率应与样本效率并重

参考