Slow/Meta Update (慢/元更新)

Slow/Meta Update 是 skillopt 中的长周期学习机制：在 epoch 结束时，optimizer 比较前后 epoch 的 skill 表现，提取跨 batch 的持久规律写入 protected slow-update field。它是深度学习中 momentum 在文本空间的对应。

工作方式

End of epoch:
  比较上一个 epoch 的 skill vs 当前 skill →
  分类：improvements, regressions, persistent failures, stable successes →
  Optimizer 写入 longitudinal guidance block →
  仍经过 [[held-out-validation-gate|Validation Gate]]

双层更新架构

更新层	频率	学习内容	类似
Fast (step)	每步	当前 batch 的具体模式	梯度步
Slow (epoch)	每 epoch	跨 batch 的持久规律	Momentum

Meta Skill

Optimizer 还维护一个 meta skill（仅 optimizer 侧使用，不随部署 skill 输出）：

总结哪些编辑模式曾有效
记录哪些被拒绝
追踪哪些失败跨 epoch 持续存在

这个元技能 prepend 到未来的 optimizer prompt 中，但不增加部署 skill 的体积。

为什么需要

快更新容易对单个 batch 的噪声过拟合。慢更新提供平滑的、跨 epoch 的方向信号——与 momentum 防止 SGD 在单个 batch 上震荡的原理一致。

1.7 KiB Raw Blame History Unescape Escape

Slow/Meta Update (慢/元更新)

工作方式

双层更新架构

Meta Skill

为什么需要

相关

1.7 KiB

Raw Blame History