Files
myWiki/papers/procedural-skills-to-strategy-genes.md

55 lines
3.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "From Procedural Skills to Strategy Genes: Towards Experience-Driven Test-Time Evolution"
created: 2026-06-14
updated: 2026-06-14
type: paper
tags: [agent, experience-reuse, test-time-adaptation, representation]
sources: [raw/papers/procedural-skills-to-strategy-genes-2026.md]
confidence: high
---
# From Procedural Skills to Strategy Genes
> 从过程技能到策略基因:走向经验驱动的测试时进化
**作者:** Junjie Wang, Yiming Ren, Haoyang Zhang (清华大学, EvoMap)
**发表:** arXiv 2604.15097v2, 2026年4月 (v2: 2026年6月)
**领域:** cs.SE, cs.CL | 代码: [skill2gep](https://github.com/EvoMap/skill2gep), [evolver](https://github.com/EvoMap/evolver)
## 核心问题
这篇论文提出了一个**表示层面的问题**:可复用经验应该如何被编码,才能在推理时作为有效的控制信号,并作为迭代进化的基底?传统方法将经验视为"内容对象"——存储、检索、重放,但本文追问:这种经验能否在测试时真正起到**稳定且有效的控制作用**
## 方法
在 45 个科学代码求解场景上进行 4,590 次受控试验,设计三类分析探针:
- **[[skill-probe|技能探针]]** — 分析过程技能为何无法提供稳定的测试时控制
- **[[gene-probe|基因探针]]** — 分析策略基因为何是更好的经验表示
- **[[evolution-probe|进化探针]]** — 分析基因作为迭代进化基底的属性
## 核心发现
1. **文档导向的技能与控制需求不匹配**:技能包(~2,500 tokens的控制信号稀疏仅集中在 Workflow 等窄片段中;扩展为完整文档反而降低整体表现(-1.1pp vs 基线)。
2. **表示本身是一阶因素**在经验内容大致相同的情况下如何包装、组织、暴露经验给模型会产生实质性差异。Gene~230 tokens, +3.0pp)远超 Skill且重新添加文档材料通常削弱而非增强 Gene。
3. **Gene 是更好的经验积累载体**:附加的失败历史在 Gene 中比在 Skill 或自由文本中更有效,可编辑结构优于纯文本,失败信息压缩为紧凑警告比朴素追加更有用。
4. **进化结果**:在 CritPt 基准上gene-evolved 系统分别从 9.1% → 18.57% 和 17.7% → 27.14%。
## 关键贡献
1. 将可复用经验从"存储与调用内容"重新塑造为"表示测试时控制信号"的问题
2. 识别出影响经验复用的对象层面因素:信息过载、表示包装效应、结构鲁棒性、有界复用、选择性积累
3. 引入 [[strategy-gene|策略基因]] 和 [[gene-evolution-protocol|GEP协议]] 作为协议化的控制表示
## 相关概念
- [[strategy-gene|策略基因]] — 紧凑的控制导向经验表示
- [[procedural-skill|过程技能]] — 文档导向的经验包
- [[gene-evolution-protocol|基因进化协议 (GEP)]] — 协议层
- [[test-time-control|测试时控制]] — 表示对模型行为的推理时影响
- [[experience-representation|经验表示]] — 经验如何被形式化编码
- [[experience-distillation|经验蒸馏]] — 压缩经验为控制信号
- [[bounded-reuse|有界复用]] — 复用存在范围边界
- [[gene-bench|Gene-Bench]] — 45场景基准
- [[critpt|CritPt]] — 外部物理学推理基准