1.7 KiB
1.7 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| Slow/Meta Update (慢/元更新) | 2026-05-29 | 2026-05-29 | concept |
|
|
Slow/Meta Update (慢/元更新)
Slow/Meta Update 是 skillopt 中的长周期学习机制:在 epoch 结束时,optimizer 比较前后 epoch 的 skill 表现,提取跨 batch 的持久规律写入 protected slow-update field。它是深度学习中 momentum 在文本空间的对应。
工作方式
End of epoch:
比较上一个 epoch 的 skill vs 当前 skill →
分类:improvements, regressions, persistent failures, stable successes →
Optimizer 写入 longitudinal guidance block →
仍经过 [[held-out-validation-gate|Validation Gate]]
双层更新架构
| 更新层 | 频率 | 学习内容 | 类似 |
|---|---|---|---|
| Fast (step) | 每步 | 当前 batch 的具体模式 | 梯度步 |
| Slow (epoch) | 每 epoch | 跨 batch 的持久规律 | Momentum |
Meta Skill
Optimizer 还维护一个 meta skill(仅 optimizer 侧使用,不随部署 skill 输出):
- 总结哪些编辑模式曾有效
- 记录哪些被拒绝
- 追踪哪些失败跨 epoch 持续存在
这个元技能 prepend 到未来的 optimizer prompt 中,但不增加部署 skill 的体积。
为什么需要
快更新容易对单个 batch 的噪声过拟合。慢更新提供平滑的、跨 epoch 的方向信号——与 momentum 防止 SGD 在单个 batch 上震荡的原理一致。
相关
- text-space-optimizer — 文本空间优化范式
- skillopt — 使用 slow/meta update 的方法
- yang-skillopt-2026 — 原始论文