Files
myWiki/concepts/skill-data-flywheel.md
2026-06-01 10:46:01 +08:00

46 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Skill Data Flywheel (Skill 数据飞轮)"
created: 2026-05-29
updated: 2026-05-29
type: concept
tags: ["self-evolution", "data", "flywheel", "training"]
sources: ["https://mp.weixin.qq.com/s/s__fdyXQG932SavQeeugcw"]
---
# Skill Data Flywheel (Skill 数据飞轮)
**Skill Data Flywheel** 是吕明在 SkillOpt 深度解读中识别的正向反馈循环:**Skill 自进化过程中产生的高质量轨迹数据,可以反哺模型层的持续学习,形成飞轮效应。**
## 飞轮结构
```
更好的 Skill → 更好的 Agent 执行轨迹 →
更高质量的训练数据 → 更强的 Model →
更好的 Optimizer 分析 → 更好的 Skill →
...
```
## 三类高价值数据
SkillOpt 框架运行中自然产生的训练数据:
| 数据类型 | 来源 | 训练价值 |
|----------|------|----------|
| **因果分析** | Optimizer 分析 Agent 成败原因 | PRM过程奖励模型训练 |
| **进化轨迹** | 初始 Skill → 最优 Skill 的路径 | 分阶段训练策略示范 |
| **编辑决策** | 验证集评判的接受/拒绝记录 | 对齐训练偏好数据 |
## 实例
MetaClaw 的双循环机制中Opportunistic Policy Optimization 正是利用 Skill 进化产生的更高质量轨迹进行 RL-PRM 训练。
## 与企业资产的关系
飞轮在企业私有化部署中的特殊价值所有数据Skill 优化轨迹、验证集、编辑决策)都保留在企业内部,形成 **具有竞争壁垒的自进化能力**
## 相关
- [[skillopt]] — 飞轮的起点
- [[dual-layer-rl]] — 飞轮在 RL 框架中的形式化
- [[skill-as-external-state]] — 飞轮为何可能