Files
myWiki/concepts/dual-layer-rl.md
2026-06-01 10:46:01 +08:00

46 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Dual-Layer RL (双层强化学习)"
created: 2026-05-29
updated: 2026-05-29
type: concept
tags: ["reinforcement-learning", "meta-learning", "skill", "optimization"]
sources: ["https://mp.weixin.qq.com/s/s__fdyXQG932SavQeeugcw"]
---
# Dual-Layer RL (双层强化学习)
**Dual-Layer RL** 是吕明在 SkillOpt 深度解读中构想的元优化架构:将 SkillOpt 的优化过程纳入强化学习框架,构建 **内层 Agent RL + 外层 Optimizer RL** 的双层体系。
## 架构
| 层 | 主体 | 目标 | 动作 |
|:---|------|------|------|
| **内层** | Agent | 利用 Skill 更好执行任务 | 执行操作 |
| **外层** | Optimizer | 更好为 Agent 优化 Skill | 提出编辑 |
## 为什么可行
SkillOpt 天然适合 RL 框架:
- **奖励信号**:验证集分数(明确、可度量、自洽)
- **动作空间**ADD/DELETE/REPLACE 编辑(离散、可控)
- **状态**:当前 Skill 文档 + Agent 执行反馈
- **验证**[[held-out-validation-gate|Gate]] 提供天然的环境反馈
## 从"被动优化"到"Learning to Learn"
双层 RL 一旦形成:
> 内层Agent 学习如何利用 Skill 文档更好地执行任务
> 外层Optimizer 学习如何更好地为 Agent 优化 Skill 文档
>
> → 真正意义上的 **"Learning to Learn"**
## 与 EvolveR 的联系
EvolveR 已展示初步可行性:用 GRPO 训练 Agent"学会如何善用经验"。SkillOpt 的编辑决策和验证筛选机制可为过程性 RL 提供更精细的信号。
## 相关
- [[skillopt]] — 双层 RL 的技术基础
- [[skill-data-flywheel]] — 双层 RL 的数据产出如何形成飞轮
- [[heuristic-learning]] — 元优化的更广义框架