20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/concepts/dual-layer-rl.md
+++ b/concepts/dual-layer-rl.md
@@ -0,0 +1,45 @@
+---
+title: "Dual-Layer RL (双层强化学习)"
+created: 2026-05-29
+updated: 2026-05-29
+type: concept
+tags: ["reinforcement-learning", "meta-learning", "skill", "optimization"]
+sources: ["https://mp.weixin.qq.com/s/s__fdyXQG932SavQeeugcw"]
+---
+
+# Dual-Layer RL (双层强化学习)
+
+**Dual-Layer RL** 是吕明在 SkillOpt 深度解读中构想的元优化架构：将 SkillOpt 的优化过程纳入强化学习框架，构建 **内层 Agent RL + 外层 Optimizer RL** 的双层体系。
+
+## 架构
+
+| 层 | 主体 | 目标 | 动作 |
+|:---|------|------|------|
+| **内层** | Agent | 利用 Skill 更好执行任务 | 执行操作 |
+| **外层** | Optimizer | 更好为 Agent 优化 Skill | 提出编辑 |
+
+## 为什么可行
+
+SkillOpt 天然适合 RL 框架：
+- **奖励信号**：验证集分数（明确、可度量、自洽）
+- **动作空间**：ADD/DELETE/REPLACE 编辑（离散、可控）
+- **状态**：当前 Skill 文档 + Agent 执行反馈
+- **验证**：[[held-out-validation-gate|Gate]] 提供天然的环境反馈
+
+## 从"被动优化"到"Learning to Learn"
+
+双层 RL 一旦形成：
+> 内层：Agent 学习如何利用 Skill 文档更好地执行任务
+> 外层：Optimizer 学习如何更好地为 Agent 优化 Skill 文档
+>
+> → 真正意义上的 **"Learning to Learn"**
+
+## 与 EvolveR 的联系
+
+EvolveR 已展示初步可行性：用 GRPO 训练 Agent"学会如何善用经验"。SkillOpt 的编辑决策和验证筛选机制可为过程性 RL 提供更精细的信号。
+
+## 相关
+
+- [[skillopt]] — 双层 RL 的技术基础
+- [[skill-data-flywheel]] — 双层 RL 的数据产出如何形成飞轮
+- [[heuristic-learning]] — 元优化的更广义框架