53 lines
1.6 KiB
Markdown
53 lines
1.6 KiB
Markdown
---
|
||
title: "技能探针 (Skill Probe)"
|
||
created: 2026-06-14
|
||
updated: 2026-06-14
|
||
type: concept
|
||
tags: [agent, analysis, evaluation, skill]
|
||
sources: [raw/papers/procedural-skills-to-strategy-genes-2026.md]
|
||
---
|
||
|
||
# 技能探针 (Skill Probe)
|
||
|
||
Wang et al. (2026) 中设计的第一个分析探针,系统性检验文档导向的过程技能是否以及为何无法作为有效的测试时控制。
|
||
|
||
## 设计意图
|
||
|
||
核心问题:文档导向的技能提示能否作为有效的测试时控制?如果不能,其可用的控制价值实际位于何处?
|
||
|
||
## 实验规模
|
||
|
||
1,440 次保留试验,跨越 45 个科学代码求解场景。
|
||
|
||
## 关键发现
|
||
|
||
### 整体比较
|
||
|
||
| 条件 | Avg. | Δ vs 基线 |
|
||
|------|------|----------|
|
||
| 无引导 | 51.0% | 0.0 |
|
||
| Gene (~230 tokens) | 54.0% | +3.0 |
|
||
| Skill 完整包 (~2,500 tokens) | 49.9% | -1.1 |
|
||
|
||
Skill 对 Flash 有帮助(41.8% → 49.0%),但降低 Pro(60.1% → 50.7%)——效益不稳健。
|
||
|
||
### 控制信号定位
|
||
|
||
分解 Skill 各部分的独立效应:
|
||
- **Workflow**: +1.5pp (仅有的明确正面组件)
|
||
- **ErrorHandling**: +0.7pp
|
||
- **QuickRef**: +0.5pp
|
||
- **Pitfalls**: -0.9pp
|
||
- **Overview**: -4.7pp (强烈有害)
|
||
|
||
### 预算匹配
|
||
|
||
将 Skill 修剪至约 230 tokens 后,片段大幅改善但**仍低于 Gene**。差异不能归因于简洁性,而在于经验如何组织为控制导向对象。
|
||
|
||
## 参考
|
||
|
||
- [[procedural-skills-to-strategy-genes|Skills to Strategy Genes]] — 包含完整分析
|
||
- [[gene-probe|基因探针]] — 对比分析
|
||
- [[evolution-probe|进化探针]] — 第三探针
|
||
- [[procedural-skill|过程技能]] — 被分析的对象
|