---
title: "Gene-Bench"
created: 2026-06-14
updated: 2026-06-14
type: concept
tags: [benchmark, evaluation, scientific-code, agent]
sources: [raw/papers/procedural-skills-to-strategy-genes-2026.md]
---

# Gene-Bench

Wang et al. (2026) 构建的 45 场景科学代码求解基准，用于评估经验表示作为测试时控制信号的效果。

## 特征

- **45 个科学计算场景**，涵盖谱学分析、蛋白质解析、地震数据处理、气候归因、库存优化等
- **不同检查点粒度**：从低粒度的端到端任务到高粒度的多步任务（每个场景 1-15 个检查点）
- **检查点评分**：每场景 checkpoint-based pass rate（通过检查点数/总检查点数），而非二进制成功/失败
- **执行环境**：Python 程序沙箱，120 秒超时

## 实验配置

- 模型：Gemini 3.1 Pro Preview 和 Gemini 3.1 Flash Lite Preview
- 推理设置：T=0.05，最大输出 16,384 tokens
- 总试验数：4,590（保留）
- 任务描述与控制表示分别注入

## 代表场景

| 场景 | 类型 | 检查点数 |
|------|------|---------|
| S012_uv_spectroscopy | UV-Vis 光谱峰检测 | 12 |
| S005_protein_parse | 蛋白质解析 | 12 |
| S033_exoplanet_transit | 系外行星凌星分析 | 10 |
| S026_earthquake_catalog | 地震目录处理 | 14 |
| S101_climate_attribution | 气候归因 | 12 |
| S106_seismic_denoise | 地震信号去噪 | 10 |
| S113_inventory_reorder | 库存优化 | 11 |

完整列表见论文 Figure 2。

## 三类探针

Gene-Bench 上运行三类分析探针：
- [[skill-probe|技能探针]] — 1,440 试验
- [[gene-probe|基因探针]] — 1,890 试验
- [[evolution-probe|进化探针]] — 1,260 试验

## 参考

- [[procedural-skills-to-strategy-genes|Skills to Strategy Genes]] — 构建论文
- [[critpt|CritPt]] — 外部进化验证基准
- [[gene-evolution-protocol|GEP]] — 基准的协议框架