SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.9 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Gene-Bench

2026-06-14

2026-06-14

concept

benchmark

evaluation

scientific-code

agent

raw/papers/procedural-skills-to-strategy-genes-2026.md

Gene-Bench

Wang et al. (2026) 构建的 45 场景科学代码求解基准，用于评估经验表示作为测试时控制信号的效果。

特征

45 个科学计算场景，涵盖谱学分析、蛋白质解析、地震数据处理、气候归因、库存优化等
不同检查点粒度：从低粒度的端到端任务到高粒度的多步任务（每个场景 1-15 个检查点）
检查点评分：每场景 checkpoint-based pass rate（通过检查点数/总检查点数），而非二进制成功/失败
执行环境：Python 程序沙箱，120 秒超时

实验配置

模型：Gemini 3.1 Pro Preview 和 Gemini 3.1 Flash Lite Preview
推理设置：T=0.05，最大输出 16,384 tokens
总试验数：4,590（保留）
任务描述与控制表示分别注入

代表场景

场景	类型	检查点数
S012_uv_spectroscopy	UV-Vis 光谱峰检测	12
S005_protein_parse	蛋白质解析	12
S033_exoplanet_transit	系外行星凌星分析	10
S026_earthquake_catalog	地震目录处理	14
S101_climate_attribution	气候归因	12
S106_seismic_denoise	地震信号去噪	10
S113_inventory_reorder	库存优化	11

完整列表见论文 Figure 2。

三类探针

Gene-Bench 上运行三类分析探针：

skill-probe — 1,440 试验
gene-probe — 1,890 试验
evolution-probe — 1,260 试验

参考

procedural-skills-to-strategy-genes — 构建论文
critpt — 外部进化验证基准
gene-evolution-protocol — 基准的协议框架