Files
myWiki/concepts/slow-meta-update.md
2026-06-01 10:46:01 +08:00

1.7 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Slow/Meta Update (慢/元更新) 2026-05-29 2026-05-29 concept
optimization
momentum
meta-learning
skill
https://arxiv.org/abs/2605.23904

Slow/Meta Update (慢/元更新)

Slow/Meta Updateskillopt 中的长周期学习机制:在 epoch 结束时optimizer 比较前后 epoch 的 skill 表现,提取跨 batch 的持久规律写入 protected slow-update field。它是深度学习中 momentum 在文本空间的对应。

工作方式

End of epoch:
  比较上一个 epoch 的 skill vs 当前 skill →
  分类improvements, regressions, persistent failures, stable successes →
  Optimizer 写入 longitudinal guidance block →
  仍经过 [[held-out-validation-gate|Validation Gate]]

双层更新架构

更新层 频率 学习内容 类似
Fast (step) 每步 当前 batch 的具体模式 梯度步
Slow (epoch) 每 epoch 跨 batch 的持久规律 Momentum

Meta Skill

Optimizer 还维护一个 meta skill(仅 optimizer 侧使用,不随部署 skill 输出):

  • 总结哪些编辑模式曾有效
  • 记录哪些被拒绝
  • 追踪哪些失败跨 epoch 持续存在

这个元技能 prepend 到未来的 optimizer prompt 中,但不增加部署 skill 的体积。

为什么需要

快更新容易对单个 batch 的噪声过拟合。慢更新提供平滑的、跨 epoch 的方向信号——与 momentum 防止 SGD 在单个 batch 上震荡的原理一致。

相关