55 lines
3.2 KiB
Markdown
55 lines
3.2 KiB
Markdown
---
|
||
title: "From Procedural Skills to Strategy Genes: Towards Experience-Driven Test-Time Evolution"
|
||
created: 2026-06-14
|
||
updated: 2026-06-14
|
||
type: paper
|
||
tags: [agent, experience-reuse, test-time-adaptation, representation]
|
||
sources: [raw/papers/procedural-skills-to-strategy-genes-2026.md]
|
||
confidence: high
|
||
---
|
||
|
||
# From Procedural Skills to Strategy Genes
|
||
|
||
> 从过程技能到策略基因:走向经验驱动的测试时进化
|
||
|
||
**作者:** Junjie Wang, Yiming Ren, Haoyang Zhang (清华大学, EvoMap)
|
||
**发表:** arXiv 2604.15097v2, 2026年4月 (v2: 2026年6月)
|
||
**领域:** cs.SE, cs.CL | 代码: [skill2gep](https://github.com/EvoMap/skill2gep), [evolver](https://github.com/EvoMap/evolver)
|
||
|
||
## 核心问题
|
||
|
||
这篇论文提出了一个**表示层面的问题**:可复用经验应该如何被编码,才能在推理时作为有效的控制信号,并作为迭代进化的基底?传统方法将经验视为"内容对象"——存储、检索、重放,但本文追问:这种经验能否在测试时真正起到**稳定且有效的控制作用**?
|
||
|
||
## 方法
|
||
|
||
在 45 个科学代码求解场景上进行 4,590 次受控试验,设计三类分析探针:
|
||
|
||
- **[[skill-probe|技能探针]]** — 分析过程技能为何无法提供稳定的测试时控制
|
||
- **[[gene-probe|基因探针]]** — 分析策略基因为何是更好的经验表示
|
||
- **[[evolution-probe|进化探针]]** — 分析基因作为迭代进化基底的属性
|
||
|
||
## 核心发现
|
||
|
||
1. **文档导向的技能与控制需求不匹配**:技能包(~2,500 tokens)的控制信号稀疏,仅集中在 Workflow 等窄片段中;扩展为完整文档反而降低整体表现(-1.1pp vs 基线)。
|
||
2. **表示本身是一阶因素**:在经验内容大致相同的情况下,如何包装、组织、暴露经验给模型会产生实质性差异。Gene(~230 tokens, +3.0pp)远超 Skill,且重新添加文档材料通常削弱而非增强 Gene。
|
||
3. **Gene 是更好的经验积累载体**:附加的失败历史在 Gene 中比在 Skill 或自由文本中更有效,可编辑结构优于纯文本,失败信息压缩为紧凑警告比朴素追加更有用。
|
||
4. **进化结果**:在 CritPt 基准上,gene-evolved 系统分别从 9.1% → 18.57% 和 17.7% → 27.14%。
|
||
|
||
## 关键贡献
|
||
|
||
1. 将可复用经验从"存储与调用内容"重新塑造为"表示测试时控制信号"的问题
|
||
2. 识别出影响经验复用的对象层面因素:信息过载、表示包装效应、结构鲁棒性、有界复用、选择性积累
|
||
3. 引入 [[strategy-gene|策略基因]] 和 [[gene-evolution-protocol|GEP协议]] 作为协议化的控制表示
|
||
|
||
## 相关概念
|
||
|
||
- [[strategy-gene|策略基因]] — 紧凑的控制导向经验表示
|
||
- [[procedural-skill|过程技能]] — 文档导向的经验包
|
||
- [[gene-evolution-protocol|基因进化协议 (GEP)]] — 协议层
|
||
- [[test-time-control|测试时控制]] — 表示对模型行为的推理时影响
|
||
- [[experience-representation|经验表示]] — 经验如何被形式化编码
|
||
- [[experience-distillation|经验蒸馏]] — 压缩经验为控制信号
|
||
- [[bounded-reuse|有界复用]] — 复用存在范围边界
|
||
- [[gene-bench|Gene-Bench]] — 45场景基准
|
||
- [[critpt|CritPt]] — 外部物理学推理基准
|