Files
myWiki/concepts/gene-bench.md

1.9 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Gene-Bench 2026-06-14 2026-06-14 concept
benchmark
evaluation
scientific-code
agent
raw/papers/procedural-skills-to-strategy-genes-2026.md

Gene-Bench

Wang et al. (2026) 构建的 45 场景科学代码求解基准,用于评估经验表示作为测试时控制信号的效果。

特征

  • 45 个科学计算场景,涵盖谱学分析、蛋白质解析、地震数据处理、气候归因、库存优化等
  • 不同检查点粒度:从低粒度的端到端任务到高粒度的多步任务(每个场景 1-15 个检查点)
  • 检查点评分:每场景 checkpoint-based pass rate通过检查点数/总检查点数),而非二进制成功/失败
  • 执行环境Python 程序沙箱120 秒超时

实验配置

  • 模型Gemini 3.1 Pro Preview 和 Gemini 3.1 Flash Lite Preview
  • 推理设置T=0.05,最大输出 16,384 tokens
  • 总试验数4,590保留
  • 任务描述与控制表示分别注入

代表场景

场景 类型 检查点数
S012_uv_spectroscopy UV-Vis 光谱峰检测 12
S005_protein_parse 蛋白质解析 12
S033_exoplanet_transit 系外行星凌星分析 10
S026_earthquake_catalog 地震目录处理 14
S101_climate_attribution 气候归因 12
S106_seismic_denoise 地震信号去噪 10
S113_inventory_reorder 库存优化 11

完整列表见论文 Figure 2。

三类探针

Gene-Bench 上运行三类分析探针:

参考