20260617:目前有914 页
This commit is contained in:
53
concepts/gene-bench.md
Normal file
53
concepts/gene-bench.md
Normal file
@@ -0,0 +1,53 @@
|
||||
---
|
||||
title: "Gene-Bench"
|
||||
created: 2026-06-14
|
||||
updated: 2026-06-14
|
||||
type: concept
|
||||
tags: [benchmark, evaluation, scientific-code, agent]
|
||||
sources: [raw/papers/procedural-skills-to-strategy-genes-2026.md]
|
||||
---
|
||||
|
||||
# Gene-Bench
|
||||
|
||||
Wang et al. (2026) 构建的 45 场景科学代码求解基准,用于评估经验表示作为测试时控制信号的效果。
|
||||
|
||||
## 特征
|
||||
|
||||
- **45 个科学计算场景**,涵盖谱学分析、蛋白质解析、地震数据处理、气候归因、库存优化等
|
||||
- **不同检查点粒度**:从低粒度的端到端任务到高粒度的多步任务(每个场景 1-15 个检查点)
|
||||
- **检查点评分**:每场景 checkpoint-based pass rate(通过检查点数/总检查点数),而非二进制成功/失败
|
||||
- **执行环境**:Python 程序沙箱,120 秒超时
|
||||
|
||||
## 实验配置
|
||||
|
||||
- 模型:Gemini 3.1 Pro Preview 和 Gemini 3.1 Flash Lite Preview
|
||||
- 推理设置:T=0.05,最大输出 16,384 tokens
|
||||
- 总试验数:4,590(保留)
|
||||
- 任务描述与控制表示分别注入
|
||||
|
||||
## 代表场景
|
||||
|
||||
| 场景 | 类型 | 检查点数 |
|
||||
|------|------|---------|
|
||||
| S012_uv_spectroscopy | UV-Vis 光谱峰检测 | 12 |
|
||||
| S005_protein_parse | 蛋白质解析 | 12 |
|
||||
| S033_exoplanet_transit | 系外行星凌星分析 | 10 |
|
||||
| S026_earthquake_catalog | 地震目录处理 | 14 |
|
||||
| S101_climate_attribution | 气候归因 | 12 |
|
||||
| S106_seismic_denoise | 地震信号去噪 | 10 |
|
||||
| S113_inventory_reorder | 库存优化 | 11 |
|
||||
|
||||
完整列表见论文 Figure 2。
|
||||
|
||||
## 三类探针
|
||||
|
||||
Gene-Bench 上运行三类分析探针:
|
||||
- [[skill-probe|技能探针]] — 1,440 试验
|
||||
- [[gene-probe|基因探针]] — 1,890 试验
|
||||
- [[evolution-probe|进化探针]] — 1,260 试验
|
||||
|
||||
## 参考
|
||||
|
||||
- [[procedural-skills-to-strategy-genes|Skills to Strategy Genes]] — 构建论文
|
||||
- [[critpt|CritPt]] — 外部进化验证基准
|
||||
- [[gene-evolution-protocol|GEP]] — 基准的协议框架
|
||||
Reference in New Issue
Block a user