20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/concepts/skill-data-flywheel.md
+++ b/concepts/skill-data-flywheel.md
@@ -0,0 +1,45 @@
+---
+title: "Skill Data Flywheel (Skill 数据飞轮)"
+created: 2026-05-29
+updated: 2026-05-29
+type: concept
+tags: ["self-evolution", "data", "flywheel", "training"]
+sources: ["https://mp.weixin.qq.com/s/s__fdyXQG932SavQeeugcw"]
+---
+
+# Skill Data Flywheel (Skill 数据飞轮)
+
+**Skill Data Flywheel** 是吕明在 SkillOpt 深度解读中识别的正向反馈循环：**Skill 自进化过程中产生的高质量轨迹数据，可以反哺模型层的持续学习，形成飞轮效应。**
+
+## 飞轮结构
+
+```
+更好的 Skill → 更好的 Agent 执行轨迹 →
+更高质量的训练数据 → 更强的 Model →
+更好的 Optimizer 分析 → 更好的 Skill →
+...
+```
+
+## 三类高价值数据
+
+SkillOpt 框架运行中自然产生的训练数据：
+
+| 数据类型 | 来源 | 训练价值 |
+|----------|------|----------|
+| **因果分析** | Optimizer 分析 Agent 成败原因 | PRM（过程奖励模型）训练 |
+| **进化轨迹** | 初始 Skill → 最优 Skill 的路径 | 分阶段训练策略示范 |
+| **编辑决策** | 验证集评判的接受/拒绝记录 | 对齐训练偏好数据 |
+
+## 实例
+
+MetaClaw 的双循环机制中，Opportunistic Policy Optimization 正是利用 Skill 进化产生的更高质量轨迹进行 RL-PRM 训练。
+
+## 与企业资产的关系
+
+飞轮在企业私有化部署中的特殊价值：所有数据（Skill 优化轨迹、验证集、编辑决策）都保留在企业内部，形成 **具有竞争壁垒的自进化能力**。
+
+## 相关
+
+- [[skillopt]] — 飞轮的起点
+- [[dual-layer-rl]] — 飞轮在 RL 框架中的形式化
+- [[skill-as-external-state]] — 飞轮为何可能