--- title: "Gene-Bench" created: 2026-06-14 updated: 2026-06-14 type: concept tags: [benchmark, evaluation, scientific-code, agent] sources: [raw/papers/procedural-skills-to-strategy-genes-2026.md] --- # Gene-Bench Wang et al. (2026) 构建的 45 场景科学代码求解基准,用于评估经验表示作为测试时控制信号的效果。 ## 特征 - **45 个科学计算场景**,涵盖谱学分析、蛋白质解析、地震数据处理、气候归因、库存优化等 - **不同检查点粒度**:从低粒度的端到端任务到高粒度的多步任务(每个场景 1-15 个检查点) - **检查点评分**:每场景 checkpoint-based pass rate(通过检查点数/总检查点数),而非二进制成功/失败 - **执行环境**:Python 程序沙箱,120 秒超时 ## 实验配置 - 模型:Gemini 3.1 Pro Preview 和 Gemini 3.1 Flash Lite Preview - 推理设置:T=0.05,最大输出 16,384 tokens - 总试验数:4,590(保留) - 任务描述与控制表示分别注入 ## 代表场景 | 场景 | 类型 | 检查点数 | |------|------|---------| | S012_uv_spectroscopy | UV-Vis 光谱峰检测 | 12 | | S005_protein_parse | 蛋白质解析 | 12 | | S033_exoplanet_transit | 系外行星凌星分析 | 10 | | S026_earthquake_catalog | 地震目录处理 | 14 | | S101_climate_attribution | 气候归因 | 12 | | S106_seismic_denoise | 地震信号去噪 | 10 | | S113_inventory_reorder | 库存优化 | 11 | 完整列表见论文 Figure 2。 ## 三类探针 Gene-Bench 上运行三类分析探针: - [[skill-probe|技能探针]] — 1,440 试验 - [[gene-probe|基因探针]] — 1,890 试验 - [[evolution-probe|进化探针]] — 1,260 试验 ## 参考 - [[procedural-skills-to-strategy-genes|Skills to Strategy Genes]] — 构建论文 - [[critpt|CritPt]] — 外部进化验证基准 - [[gene-evolution-protocol|GEP]] — 基准的协议框架