SidneyZhang/myWiki

Fork 0

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

2.7 KiB

Raw Blame History

title, created, type, paper, arxiv

title	created	type	paper	arxiv
Review: SkillOpt — Agent Skill 的文本空间优化器	2026-05-29	review	yang-skillopt-2026	2605.23904

📌 Review: SkillOpt

论文: SkillOpt: Executive Strategy for Self-Evolving Agent Skills 作者: Yifan Yang, Ziyang Gong, Weiquan Huang et al. (15 authors) 机构: Microsoft, SJTU, Tongji, Fudan arXiv: 2605.23904 | 领域: cs.AI | 时间: 2026-05-29

🎯 核心概念

skillopt — 首个系统性 Agent Skill 文本空间优化器，52/52 best or tied
text-space-optimizer — 将 skill 训练建模为文本空间优化，与权重空间形成精确类比
textual-learning-rate — 编辑预算 L_t 控制优化步长
held-out-validation-gate — 候选编辑仅在留出集上改善时才被接受
rejected-edit-buffer — 失败编辑的负反馈信号，epoch-local
slow-meta-update — Momentum 在文本空间的对应：跨 epoch 持久规律
skill-as-external-state — 适应不一定要改权重，skill 就是可训练的外部状态

🔗 概念网络

核心链: skillopt ↔ text-space-optimizer ↔ textual-learning-rate ↔ held-out-validation-gate ↔ slow-meta-update

反馈闭环: held-out-validation-gate → rejected-edit-buffer → optimizer → held-out-validation-gate

上层哲学: skill-as-external-state → 连接 model-harness-relationship + heuristic-learning

📚 Wiki 集成

新增页面: 10 个（1 raw + 1 paper + 7 概念 + 1 review）
链接完整性: 100% 无断链 ✅
总规模: 527 → 535 页

💡 关键洞察

1. "类比是操作性的，不是装饰性的"：SkillOpt 最精妙之处是它对深度学习优化器的类比每个组件都有操作性对应——learning rate → edit budget、validation → held-out gate、momentum → slow update。这不是比喻，是一个完整翻译过来的优化框架。这在 AI 历史上可能是第一次有人把"优化自然语言 artifact"这件事做得如此系统。

2. 从"改参数"到"改文档"的范式转移：SkillOpt 明确指出 adaptation ≠ weight update。Skill 作为可训练外部状态，与今日已在推进的 model-harness-relationship、heuristic-learning、compiled-ai-paradigm 形成了一条完整的叙事线——AI 的适应正在从模型内部（权重）迁移到模型外部（skill/harness/code），这是一个与本次 GenAI 浪潮本质特征（生成式·通用性·统一性）高度一致的深层趋势。

2.7 KiB Raw Blame History Unescape Escape