2.7 KiB
title, created, type, paper, arxiv
| title | created | type | paper | arxiv |
|---|---|---|---|---|
| Review: SkillOpt — Agent Skill 的文本空间优化器 | 2026-05-29 | review | yang-skillopt-2026 | 2605.23904 |
📌 Review: SkillOpt
论文: SkillOpt: Executive Strategy for Self-Evolving Agent Skills 作者: Yifan Yang, Ziyang Gong, Weiquan Huang et al. (15 authors) 机构: Microsoft, SJTU, Tongji, Fudan arXiv: 2605.23904 | 领域: cs.AI | 时间: 2026-05-29
🎯 核心概念
- skillopt — 首个系统性 Agent Skill 文本空间优化器,52/52 best or tied
- text-space-optimizer — 将 skill 训练建模为文本空间优化,与权重空间形成精确类比
- textual-learning-rate — 编辑预算 L_t 控制优化步长
- held-out-validation-gate — 候选编辑仅在留出集上改善时才被接受
- rejected-edit-buffer — 失败编辑的负反馈信号,epoch-local
- slow-meta-update — Momentum 在文本空间的对应:跨 epoch 持久规律
- skill-as-external-state — 适应不一定要改权重,skill 就是可训练的外部状态
🔗 概念网络
核心链: skillopt ↔ text-space-optimizer ↔ textual-learning-rate ↔ held-out-validation-gate ↔ slow-meta-update
反馈闭环: held-out-validation-gate → rejected-edit-buffer → optimizer → held-out-validation-gate
上层哲学: skill-as-external-state → 连接 model-harness-relationship + heuristic-learning
📚 Wiki 集成
- 新增页面: 10 个(1 raw + 1 paper + 7 概念 + 1 review)
- 链接完整性: 100% 无断链 ✅
- 总规模: 527 → 535 页
💡 关键洞察
1. "类比是操作性的,不是装饰性的":SkillOpt 最精妙之处是它对深度学习优化器的类比每个组件都有操作性对应——learning rate → edit budget、validation → held-out gate、momentum → slow update。这不是比喻,是一个完整翻译过来的优化框架。这在 AI 历史上可能是第一次有人把"优化自然语言 artifact"这件事做得如此系统。
2. 从"改参数"到"改文档"的范式转移:SkillOpt 明确指出 adaptation ≠ weight update。Skill 作为可训练外部状态,与今日已在推进的 model-harness-relationship、heuristic-learning、compiled-ai-paradigm 形成了一条完整的叙事线——AI 的适应正在从模型内部(权重)迁移到模型外部(skill/harness/code),这是一个与本次 GenAI 浪潮本质特征(生成式·通用性·统一性)高度一致的深层趋势。