SidneyZhang/myWiki

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

1.7 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Dual-Layer RL (双层强化学习)

2026-05-29

2026-05-29

concept

reinforcement-learning

meta-learning

skill

optimization

https://mp.weixin.qq.com/s/s__fdyXQG932SavQeeugcw

Dual-Layer RL (双层强化学习)

Dual-Layer RL 是吕明在 SkillOpt 深度解读中构想的元优化架构：将 SkillOpt 的优化过程纳入强化学习框架，构建 内层 Agent RL + 外层 Optimizer RL 的双层体系。

架构

层	主体	目标	动作
内层	Agent	利用 Skill 更好执行任务	执行操作
外层	Optimizer	更好为 Agent 优化 Skill	提出编辑

为什么可行

SkillOpt 天然适合 RL 框架：

奖励信号：验证集分数（明确、可度量、自洽）
动作空间：ADD/DELETE/REPLACE 编辑（离散、可控）
状态：当前 Skill 文档 + Agent 执行反馈
验证：held-out-validation-gate 提供天然的环境反馈

从"被动优化"到"Learning to Learn"

双层 RL 一旦形成：

内层：Agent 学习如何利用 Skill 文档更好地执行任务外层：Optimizer 学习如何更好地为 Agent 优化 Skill 文档

→ 真正意义上的 "Learning to Learn"

与 EvolveR 的联系

EvolveR 已展示初步可行性：用 GRPO 训练 Agent"学会如何善用经验"。SkillOpt 的编辑决策和验证筛选机制可为过程性 RL 提供更精细的信号。

相关

skillopt — 双层 RL 的技术基础
skill-data-flywheel — 双层 RL 的数据产出如何形成飞轮
heuristic-learning — 元优化的更广义框架