2.3 KiB
2.3 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 进化探针 (Evolution Probe) | 2026-06-14 | 2026-06-14 | concept |
|
|
进化探针 (Evolution Probe)
Wang et al. (2026) 中设计的第三个分析探针,检验策略基因是否为经验积累和迭代进化提供更好的基底。
设计意图
Gene 不仅是一次性控制——它能否作为持续经验积累和测试时进化的载体?
实验规模
1,260 次保留试验。
关键发现
载体格式效应
同一失败历史附加到不同载体上的效果:
| 条件 | Avg. | Δ |
|---|---|---|
| 无引导 | 51.0% | 0.0 |
| Gene | 54.0% | +3.0 |
| Gene + failure | 52.0% | +1.0 |
| Freeform + failure | 49.6% | -1.4 |
| Skill + failure | 47.8% | -3.2 |
积累的经验不是载体中性的——结构化控制导向对象比文档导向或非结构化文本更好地保留附加信息。
可编辑结构 vs 展平散文
| 条件 | Avg. | Δ |
|---|---|---|
| 无引导 | 51.0% | 0.0 |
| Gene (结构化) | 54.0% | +3.0 |
| Gene (展平散文, 相同内容) | 50.5% | -0.5 |
可编辑结构超越内容本身有价值——将 Gene 展平为散文消除了其大部分优势。
失败信息编码
| 条件 | Avg. | Δ |
|---|---|---|
| 无引导 | 49.8% | 0.0 |
| 仅失败警告 | 54.4% | +4.6 |
| 仅策略 | 52.3% | +2.5 |
| 策略优先 | 51.8% | +2.0 |
| 失败优先 | 50.5% | +0.7 |
失败历史蒸馏为独立紧凑警告时最有效,而非与策略混合。朴素地将两者打包会削弱双方。
CritPt 进化
见 evolution-probe 中 CritPt 结果:
- Evolver + Gemini 3 Pro: 9.1% → 18.57% (+9.47pp)
- Evolver + Gemini 3.1 Pro: 17.7% → 27.14% (+9.44pp)
核心教训
经验积累应选择性而非加性:压缩失败为聚焦警告、保持结构化可编辑性、避免附加性增长模糊控制信号。
参考
- procedural-skills-to-strategy-genes — 包含完整分析
- skill-probe — 第一探针
- gene-probe — 第二探针
- critpt — 外部进化基准
- experience-distillation — 压缩策略