Files
myWiki/concepts/skill-data-flywheel.md
2026-06-01 10:46:01 +08:00

1.6 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Skill Data Flywheel (Skill 数据飞轮) 2026-05-29 2026-05-29 concept
self-evolution
data
flywheel
training
https://mp.weixin.qq.com/s/s__fdyXQG932SavQeeugcw

Skill Data Flywheel (Skill 数据飞轮)

Skill Data Flywheel 是吕明在 SkillOpt 深度解读中识别的正向反馈循环:Skill 自进化过程中产生的高质量轨迹数据,可以反哺模型层的持续学习,形成飞轮效应。

飞轮结构

更好的 Skill → 更好的 Agent 执行轨迹 →
更高质量的训练数据 → 更强的 Model →
更好的 Optimizer 分析 → 更好的 Skill →
...

三类高价值数据

SkillOpt 框架运行中自然产生的训练数据:

数据类型 来源 训练价值
因果分析 Optimizer 分析 Agent 成败原因 PRM过程奖励模型训练
进化轨迹 初始 Skill → 最优 Skill 的路径 分阶段训练策略示范
编辑决策 验证集评判的接受/拒绝记录 对齐训练偏好数据

实例

MetaClaw 的双循环机制中Opportunistic Policy Optimization 正是利用 Skill 进化产生的更高质量轨迹进行 RL-PRM 训练。

与企业资产的关系

飞轮在企业私有化部署中的特殊价值所有数据Skill 优化轨迹、验证集、编辑决策)都保留在企业内部,形成 具有竞争壁垒的自进化能力

相关