title, created, updated, type, tags, sources
| title |
created |
updated |
type |
tags |
sources |
| SkillOpt |
2026-05-29 |
2026-05-29 |
concept |
| agent |
| skill |
| optimization |
| text-space |
|
|
SkillOpt
SkillOpt 是 Yang et al. (Microsoft, 2026) 提出的第一个系统性的 text-space-optimizer,用于训练 Agent 的 skill 文档。它将 skill 视为 frozen agent 的可训练外部状态,用 deep learning optimizer 的控制纪律来优化自然语言 artifact。
核心类比
| 深度学习 |
SkillOpt |
| 参数 θ |
Skill 文档(300–2,000 tokens) |
| 梯度方向 |
Rollout 轨迹 → 编辑方向 |
| 学习率 |
[[textual-learning-rate |
| Validation |
[[held-out-validation-gate |
| Momentum |
[[slow-meta-update |
| 负梯度 |
[[rejected-edit-buffer |
训练循环
- Rollout Batch: Frozen Agent 用当前 skill 在训练数据上执行
- Reflection Minibatches: Optimizer 分析成功/失败轨迹
- Edit Proposal: Optimizer 提出 add/delete/replace 编辑
- Aggregation & Ranking: 合并所有 minibatch 的编辑,按预期效用排名
- Bounded Update: 在 textual-learning-rate 内应用 top 编辑
- Validation Gate: 候选 skill 在 held-out 数据上验证,改善才接受
- Rejected Buffer: 拒绝的编辑记录为负反馈
覆盖范围
- 6 benchmarks: SearchQA, SpreadsheetBench, OfficeQA, DocVQA, LiveMathematicianBench, ALFWorld
- 7 models: GPT-5.5 down to Qwen
- 3 harnesses: Direct chat, Codex, Claude Code
- 52/52 best or tied
迁移能力
Skill 一次训练后可跨模型、跨 harness、跨 benchmark 复用:
- SpreadsheetBench skill (GPT-5.4) → 改善所有更小的 GPT 变体
- Codex-trained skill → Claude Code: +59.7 pts
相关