77 lines
2.3 KiB
Markdown
77 lines
2.3 KiB
Markdown
---
|
||
title: "进化探针 (Evolution Probe)"
|
||
created: 2026-06-14
|
||
updated: 2026-06-14
|
||
type: concept
|
||
tags: [agent, evolution, experience-accumulation, gene]
|
||
sources: [raw/papers/procedural-skills-to-strategy-genes-2026.md]
|
||
---
|
||
|
||
# 进化探针 (Evolution Probe)
|
||
|
||
Wang et al. (2026) 中设计的第三个分析探针,检验策略基因是否为经验积累和迭代进化提供更好的基底。
|
||
|
||
## 设计意图
|
||
|
||
Gene 不仅是一次性控制——它能否作为**持续经验积累和测试时进化的载体**?
|
||
|
||
## 实验规模
|
||
|
||
1,260 次保留试验。
|
||
|
||
## 关键发现
|
||
|
||
### 载体格式效应
|
||
|
||
同一失败历史附加到不同载体上的效果:
|
||
|
||
| 条件 | Avg. | Δ |
|
||
|------|------|-----|
|
||
| 无引导 | 51.0% | 0.0 |
|
||
| Gene | 54.0% | +3.0 |
|
||
| Gene + failure | 52.0% | +1.0 |
|
||
| Freeform + failure | 49.6% | -1.4 |
|
||
| Skill + failure | 47.8% | -3.2 |
|
||
|
||
积累的经验**不是载体中性的**——结构化控制导向对象比文档导向或非结构化文本更好地保留附加信息。
|
||
|
||
### 可编辑结构 vs 展平散文
|
||
|
||
| 条件 | Avg. | Δ |
|
||
|------|------|-----|
|
||
| 无引导 | 51.0% | 0.0 |
|
||
| Gene (结构化) | 54.0% | +3.0 |
|
||
| Gene (展平散文, 相同内容) | 50.5% | -0.5 |
|
||
|
||
可编辑结构**超越内容**本身有价值——将 Gene 展平为散文消除了其大部分优势。
|
||
|
||
### 失败信息编码
|
||
|
||
| 条件 | Avg. | Δ |
|
||
|------|------|-----|
|
||
| 无引导 | 49.8% | 0.0 |
|
||
| 仅失败警告 | 54.4% | +4.6 |
|
||
| 仅策略 | 52.3% | +2.5 |
|
||
| 策略优先 | 51.8% | +2.0 |
|
||
| 失败优先 | 50.5% | +0.7 |
|
||
|
||
失败历史**蒸馏为独立紧凑警告**时最有效,而非与策略混合。朴素地将两者打包会削弱双方。
|
||
|
||
### CritPt 进化
|
||
|
||
见 [[evolution-probe|进化探针]] 中 CritPt 结果:
|
||
- Evolver + Gemini 3 Pro: 9.1% → 18.57% (+9.47pp)
|
||
- Evolver + Gemini 3.1 Pro: 17.7% → 27.14% (+9.44pp)
|
||
|
||
## 核心教训
|
||
|
||
经验积累应**选择性而非加性**:压缩失败为聚焦警告、保持结构化可编辑性、避免附加性增长模糊控制信号。
|
||
|
||
## 参考
|
||
|
||
- [[procedural-skills-to-strategy-genes|Skills to Strategy Genes]] — 包含完整分析
|
||
- [[skill-probe|技能探针]] — 第一探针
|
||
- [[gene-probe|基因探针]] — 第二探针
|
||
- [[critpt|CritPt]] — 外部进化基准
|
||
- [[experience-distillation|经验蒸馏]] — 压缩策略
|