1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| Skill Data Flywheel (Skill 数据飞轮) | 2026-05-29 | 2026-05-29 | concept |
|
|
Skill Data Flywheel (Skill 数据飞轮)
Skill Data Flywheel 是吕明在 SkillOpt 深度解读中识别的正向反馈循环:Skill 自进化过程中产生的高质量轨迹数据,可以反哺模型层的持续学习,形成飞轮效应。
飞轮结构
更好的 Skill → 更好的 Agent 执行轨迹 →
更高质量的训练数据 → 更强的 Model →
更好的 Optimizer 分析 → 更好的 Skill →
...
三类高价值数据
SkillOpt 框架运行中自然产生的训练数据:
| 数据类型 | 来源 | 训练价值 |
|---|---|---|
| 因果分析 | Optimizer 分析 Agent 成败原因 | PRM(过程奖励模型)训练 |
| 进化轨迹 | 初始 Skill → 最优 Skill 的路径 | 分阶段训练策略示范 |
| 编辑决策 | 验证集评判的接受/拒绝记录 | 对齐训练偏好数据 |
实例
MetaClaw 的双循环机制中,Opportunistic Policy Optimization 正是利用 Skill 进化产生的更高质量轨迹进行 RL-PRM 训练。
与企业资产的关系
飞轮在企业私有化部署中的特殊价值:所有数据(Skill 优化轨迹、验证集、编辑决策)都保留在企业内部,形成 具有竞争壁垒的自进化能力。
相关
- skillopt — 飞轮的起点
- dual-layer-rl — 飞轮在 RL 框架中的形式化
- skill-as-external-state — 飞轮为何可能