54 lines
1.9 KiB
Markdown
54 lines
1.9 KiB
Markdown
---
|
||
title: "Gene-Bench"
|
||
created: 2026-06-14
|
||
updated: 2026-06-14
|
||
type: concept
|
||
tags: [benchmark, evaluation, scientific-code, agent]
|
||
sources: [raw/papers/procedural-skills-to-strategy-genes-2026.md]
|
||
---
|
||
|
||
# Gene-Bench
|
||
|
||
Wang et al. (2026) 构建的 45 场景科学代码求解基准,用于评估经验表示作为测试时控制信号的效果。
|
||
|
||
## 特征
|
||
|
||
- **45 个科学计算场景**,涵盖谱学分析、蛋白质解析、地震数据处理、气候归因、库存优化等
|
||
- **不同检查点粒度**:从低粒度的端到端任务到高粒度的多步任务(每个场景 1-15 个检查点)
|
||
- **检查点评分**:每场景 checkpoint-based pass rate(通过检查点数/总检查点数),而非二进制成功/失败
|
||
- **执行环境**:Python 程序沙箱,120 秒超时
|
||
|
||
## 实验配置
|
||
|
||
- 模型:Gemini 3.1 Pro Preview 和 Gemini 3.1 Flash Lite Preview
|
||
- 推理设置:T=0.05,最大输出 16,384 tokens
|
||
- 总试验数:4,590(保留)
|
||
- 任务描述与控制表示分别注入
|
||
|
||
## 代表场景
|
||
|
||
| 场景 | 类型 | 检查点数 |
|
||
|------|------|---------|
|
||
| S012_uv_spectroscopy | UV-Vis 光谱峰检测 | 12 |
|
||
| S005_protein_parse | 蛋白质解析 | 12 |
|
||
| S033_exoplanet_transit | 系外行星凌星分析 | 10 |
|
||
| S026_earthquake_catalog | 地震目录处理 | 14 |
|
||
| S101_climate_attribution | 气候归因 | 12 |
|
||
| S106_seismic_denoise | 地震信号去噪 | 10 |
|
||
| S113_inventory_reorder | 库存优化 | 11 |
|
||
|
||
完整列表见论文 Figure 2。
|
||
|
||
## 三类探针
|
||
|
||
Gene-Bench 上运行三类分析探针:
|
||
- [[skill-probe|技能探针]] — 1,440 试验
|
||
- [[gene-probe|基因探针]] — 1,890 试验
|
||
- [[evolution-probe|进化探针]] — 1,260 试验
|
||
|
||
## 参考
|
||
|
||
- [[procedural-skills-to-strategy-genes|Skills to Strategy Genes]] — 构建论文
|
||
- [[critpt|CritPt]] — 外部进化验证基准
|
||
- [[gene-evolution-protocol|GEP]] — 基准的协议框架
|