1.7 KiB
1.7 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| 扩展深度强化学习 (Scaling Deep RL) | 2026-06-10 | 2026-06-10 | concept |
|
|
扩展深度强化学习 (Scaling Deep RL)
Scaling Deep RL 关注如何通过增加模型容量、数据量和任务多样性来持续提升RL性能——类似于语言和视觉领域的 scaling laws 研究。
核心挑战
与监督学习不同,RL 的 scaling 面临独特障碍:
- 非平稳数据:策略更新 → 数据分布变化
- Bootstrapping:TD 目标的递归性质放大误差
- 表征崩溃:大模型在稀疏信号下出现死神经元
- 损失可塑性:持续训练导致网络失去学习能力
关键发现
predictive-representations-scalable-mtrl 的核心 scaling 发现:
- 无预测表征:模型增大 → 性能持平或退化
- 有预测表征:模型增大 → 持续性能提升
→ 表征质量是 scaling 的瓶颈,而非模型容量本身。
与 LLM/Vision Scaling 的对比
| 维度 | LLM/Vision | Deep RL |
|---|---|---|
| 数据 | 静态语料库 | 在线交互 |
| 监督 | 密集 | 稀疏/非平稳 |
| 目标 | 静态 | Bootstrapped |
| Scaling 瓶颈 | 数据量 | 表征质量 |
实践意义
- 扩大模型前,先确保表征学习机制到位
- predictive-representation-learning是低成本、高回报的 scaling 杠杆
- Wall-clock 效率应与样本效率并重