20260601
This commit is contained in:
45
concepts/dual-layer-rl.md
Normal file
45
concepts/dual-layer-rl.md
Normal file
@@ -0,0 +1,45 @@
|
||||
---
|
||||
title: "Dual-Layer RL (双层强化学习)"
|
||||
created: 2026-05-29
|
||||
updated: 2026-05-29
|
||||
type: concept
|
||||
tags: ["reinforcement-learning", "meta-learning", "skill", "optimization"]
|
||||
sources: ["https://mp.weixin.qq.com/s/s__fdyXQG932SavQeeugcw"]
|
||||
---
|
||||
|
||||
# Dual-Layer RL (双层强化学习)
|
||||
|
||||
**Dual-Layer RL** 是吕明在 SkillOpt 深度解读中构想的元优化架构:将 SkillOpt 的优化过程纳入强化学习框架,构建 **内层 Agent RL + 外层 Optimizer RL** 的双层体系。
|
||||
|
||||
## 架构
|
||||
|
||||
| 层 | 主体 | 目标 | 动作 |
|
||||
|:---|------|------|------|
|
||||
| **内层** | Agent | 利用 Skill 更好执行任务 | 执行操作 |
|
||||
| **外层** | Optimizer | 更好为 Agent 优化 Skill | 提出编辑 |
|
||||
|
||||
## 为什么可行
|
||||
|
||||
SkillOpt 天然适合 RL 框架:
|
||||
- **奖励信号**:验证集分数(明确、可度量、自洽)
|
||||
- **动作空间**:ADD/DELETE/REPLACE 编辑(离散、可控)
|
||||
- **状态**:当前 Skill 文档 + Agent 执行反馈
|
||||
- **验证**:[[held-out-validation-gate|Gate]] 提供天然的环境反馈
|
||||
|
||||
## 从"被动优化"到"Learning to Learn"
|
||||
|
||||
双层 RL 一旦形成:
|
||||
> 内层:Agent 学习如何利用 Skill 文档更好地执行任务
|
||||
> 外层:Optimizer 学习如何更好地为 Agent 优化 Skill 文档
|
||||
>
|
||||
> → 真正意义上的 **"Learning to Learn"**
|
||||
|
||||
## 与 EvolveR 的联系
|
||||
|
||||
EvolveR 已展示初步可行性:用 GRPO 训练 Agent"学会如何善用经验"。SkillOpt 的编辑决策和验证筛选机制可为过程性 RL 提供更精细的信号。
|
||||
|
||||
## 相关
|
||||
|
||||
- [[skillopt]] — 双层 RL 的技术基础
|
||||
- [[skill-data-flywheel]] — 双层 RL 的数据产出如何形成飞轮
|
||||
- [[heuristic-learning]] — 元优化的更广义框架
|
||||
Reference in New Issue
Block a user