From Procedural Skills to Strategy Genes

从过程技能到策略基因：走向经验驱动的测试时进化

作者: Junjie Wang, Yiming Ren, Haoyang Zhang (清华大学, EvoMap) 发表: arXiv 2604.15097v2, 2026年4月 (v2: 2026年6月) 领域: cs.SE, cs.CL | 代码: skill2gep, evolver

核心问题

这篇论文提出了一个表示层面的问题：可复用经验应该如何被编码，才能在推理时作为有效的控制信号，并作为迭代进化的基底？传统方法将经验视为"内容对象"——存储、检索、重放，但本文追问：这种经验能否在测试时真正起到稳定且有效的控制作用？

方法

在 45 个科学代码求解场景上进行 4,590 次受控试验，设计三类分析探针：

skill-probe — 分析过程技能为何无法提供稳定的测试时控制
gene-probe — 分析策略基因为何是更好的经验表示
evolution-probe — 分析基因作为迭代进化基底的属性

核心发现

文档导向的技能与控制需求不匹配：技能包（~2,500 tokens）的控制信号稀疏，仅集中在 Workflow 等窄片段中；扩展为完整文档反而降低整体表现（-1.1pp vs 基线）。
表示本身是一阶因素：在经验内容大致相同的情况下，如何包装、组织、暴露经验给模型会产生实质性差异。Gene（~230 tokens, +3.0pp）远超 Skill，且重新添加文档材料通常削弱而非增强 Gene。
Gene 是更好的经验积累载体：附加的失败历史在 Gene 中比在 Skill 或自由文本中更有效，可编辑结构优于纯文本，失败信息压缩为紧凑警告比朴素追加更有用。
进化结果：在 CritPt 基准上，gene-evolved 系统分别从 9.1% → 18.57% 和 17.7% → 27.14%。

关键贡献

将可复用经验从"存储与调用内容"重新塑造为"表示测试时控制信号"的问题
识别出影响经验复用的对象层面因素：信息过载、表示包装效应、结构鲁棒性、有界复用、选择性积累
引入 strategy-gene 和 gene-evolution-protocol 作为协议化的控制表示

3.2 KiB Raw Blame History Unescape Escape

From Procedural Skills to Strategy Genes

核心问题

方法

核心发现

关键贡献

相关概念

3.2 KiB

Raw Blame History