Files
myWiki/concepts/gene-bench.md

54 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Gene-Bench"
created: 2026-06-14
updated: 2026-06-14
type: concept
tags: [benchmark, evaluation, scientific-code, agent]
sources: [raw/papers/procedural-skills-to-strategy-genes-2026.md]
---
# Gene-Bench
Wang et al. (2026) 构建的 45 场景科学代码求解基准,用于评估经验表示作为测试时控制信号的效果。
## 特征
- **45 个科学计算场景**,涵盖谱学分析、蛋白质解析、地震数据处理、气候归因、库存优化等
- **不同检查点粒度**:从低粒度的端到端任务到高粒度的多步任务(每个场景 1-15 个检查点)
- **检查点评分**:每场景 checkpoint-based pass rate通过检查点数/总检查点数),而非二进制成功/失败
- **执行环境**Python 程序沙箱120 秒超时
## 实验配置
- 模型Gemini 3.1 Pro Preview 和 Gemini 3.1 Flash Lite Preview
- 推理设置T=0.05,最大输出 16,384 tokens
- 总试验数4,590保留
- 任务描述与控制表示分别注入
## 代表场景
| 场景 | 类型 | 检查点数 |
|------|------|---------|
| S012_uv_spectroscopy | UV-Vis 光谱峰检测 | 12 |
| S005_protein_parse | 蛋白质解析 | 12 |
| S033_exoplanet_transit | 系外行星凌星分析 | 10 |
| S026_earthquake_catalog | 地震目录处理 | 14 |
| S101_climate_attribution | 气候归因 | 12 |
| S106_seismic_denoise | 地震信号去噪 | 10 |
| S113_inventory_reorder | 库存优化 | 11 |
完整列表见论文 Figure 2。
## 三类探针
Gene-Bench 上运行三类分析探针:
- [[skill-probe|技能探针]] — 1,440 试验
- [[gene-probe|基因探针]] — 1,890 试验
- [[evolution-probe|进化探针]] — 1,260 试验
## 参考
- [[procedural-skills-to-strategy-genes|Skills to Strategy Genes]] — 构建论文
- [[critpt|CritPt]] — 外部进化验证基准
- [[gene-evolution-protocol|GEP]] — 基准的协议框架