1.7 KiB
1.7 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| Dual-Layer RL (双层强化学习) | 2026-05-29 | 2026-05-29 | concept |
|
|
Dual-Layer RL (双层强化学习)
Dual-Layer RL 是吕明在 SkillOpt 深度解读中构想的元优化架构:将 SkillOpt 的优化过程纳入强化学习框架,构建 内层 Agent RL + 外层 Optimizer RL 的双层体系。
架构
| 层 | 主体 | 目标 | 动作 |
|---|---|---|---|
| 内层 | Agent | 利用 Skill 更好执行任务 | 执行操作 |
| 外层 | Optimizer | 更好为 Agent 优化 Skill | 提出编辑 |
为什么可行
SkillOpt 天然适合 RL 框架:
- 奖励信号:验证集分数(明确、可度量、自洽)
- 动作空间:ADD/DELETE/REPLACE 编辑(离散、可控)
- 状态:当前 Skill 文档 + Agent 执行反馈
- 验证:held-out-validation-gate 提供天然的环境反馈
从"被动优化"到"Learning to Learn"
双层 RL 一旦形成:
内层:Agent 学习如何利用 Skill 文档更好地执行任务 外层:Optimizer 学习如何更好地为 Agent 优化 Skill 文档
→ 真正意义上的 "Learning to Learn"
与 EvolveR 的联系
EvolveR 已展示初步可行性:用 GRPO 训练 Agent"学会如何善用经验"。SkillOpt 的编辑决策和验证筛选机制可为过程性 RL 提供更精细的信号。
相关
- skillopt — 双层 RL 的技术基础
- skill-data-flywheel — 双层 RL 的数据产出如何形成飞轮
- heuristic-learning — 元优化的更广义框架