Files
myWiki/concepts/skill-probe.md

1.6 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
技能探针 (Skill Probe) 2026-06-14 2026-06-14 concept
agent
analysis
evaluation
skill
raw/papers/procedural-skills-to-strategy-genes-2026.md

技能探针 (Skill Probe)

Wang et al. (2026) 中设计的第一个分析探针,系统性检验文档导向的过程技能是否以及为何无法作为有效的测试时控制。

设计意图

核心问题:文档导向的技能提示能否作为有效的测试时控制?如果不能,其可用的控制价值实际位于何处?

实验规模

1,440 次保留试验,跨越 45 个科学代码求解场景。

关键发现

整体比较

条件 Avg. Δ vs 基线
无引导 51.0% 0.0
Gene (~230 tokens) 54.0% +3.0
Skill 完整包 (~2,500 tokens) 49.9% -1.1

Skill 对 Flash 有帮助41.8% → 49.0%),但降低 Pro60.1% → 50.7%)——效益不稳健。

控制信号定位

分解 Skill 各部分的独立效应:

  • Workflow: +1.5pp (仅有的明确正面组件)
  • ErrorHandling: +0.7pp
  • QuickRef: +0.5pp
  • Pitfalls: -0.9pp
  • Overview: -4.7pp (强烈有害)

预算匹配

将 Skill 修剪至约 230 tokens 后,片段大幅改善但仍低于 Gene。差异不能归因于简洁性,而在于经验如何组织为控制导向对象。

参考