1.9 KiB
1.9 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| Gene-Bench | 2026-06-14 | 2026-06-14 | concept |
|
|
Gene-Bench
Wang et al. (2026) 构建的 45 场景科学代码求解基准,用于评估经验表示作为测试时控制信号的效果。
特征
- 45 个科学计算场景,涵盖谱学分析、蛋白质解析、地震数据处理、气候归因、库存优化等
- 不同检查点粒度:从低粒度的端到端任务到高粒度的多步任务(每个场景 1-15 个检查点)
- 检查点评分:每场景 checkpoint-based pass rate(通过检查点数/总检查点数),而非二进制成功/失败
- 执行环境:Python 程序沙箱,120 秒超时
实验配置
- 模型:Gemini 3.1 Pro Preview 和 Gemini 3.1 Flash Lite Preview
- 推理设置:T=0.05,最大输出 16,384 tokens
- 总试验数:4,590(保留)
- 任务描述与控制表示分别注入
代表场景
| 场景 | 类型 | 检查点数 |
|---|---|---|
| S012_uv_spectroscopy | UV-Vis 光谱峰检测 | 12 |
| S005_protein_parse | 蛋白质解析 | 12 |
| S033_exoplanet_transit | 系外行星凌星分析 | 10 |
| S026_earthquake_catalog | 地震目录处理 | 14 |
| S101_climate_attribution | 气候归因 | 12 |
| S106_seismic_denoise | 地震信号去噪 | 10 |
| S113_inventory_reorder | 库存优化 | 11 |
完整列表见论文 Figure 2。
三类探针
Gene-Bench 上运行三类分析探针:
- skill-probe — 1,440 试验
- gene-probe — 1,890 试验
- evolution-probe — 1,260 试验
参考
- procedural-skills-to-strategy-genes — 构建论文
- critpt — 外部进化验证基准
- gene-evolution-protocol — 基准的协议框架