20260617:目前有914 页

This commit is contained in:
2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions

53
concepts/gene-bench.md Normal file
View File

@@ -0,0 +1,53 @@
---
title: "Gene-Bench"
created: 2026-06-14
updated: 2026-06-14
type: concept
tags: [benchmark, evaluation, scientific-code, agent]
sources: [raw/papers/procedural-skills-to-strategy-genes-2026.md]
---
# Gene-Bench
Wang et al. (2026) 构建的 45 场景科学代码求解基准,用于评估经验表示作为测试时控制信号的效果。
## 特征
- **45 个科学计算场景**,涵盖谱学分析、蛋白质解析、地震数据处理、气候归因、库存优化等
- **不同检查点粒度**:从低粒度的端到端任务到高粒度的多步任务(每个场景 1-15 个检查点)
- **检查点评分**:每场景 checkpoint-based pass rate通过检查点数/总检查点数),而非二进制成功/失败
- **执行环境**Python 程序沙箱120 秒超时
## 实验配置
- 模型Gemini 3.1 Pro Preview 和 Gemini 3.1 Flash Lite Preview
- 推理设置T=0.05,最大输出 16,384 tokens
- 总试验数4,590保留
- 任务描述与控制表示分别注入
## 代表场景
| 场景 | 类型 | 检查点数 |
|------|------|---------|
| S012_uv_spectroscopy | UV-Vis 光谱峰检测 | 12 |
| S005_protein_parse | 蛋白质解析 | 12 |
| S033_exoplanet_transit | 系外行星凌星分析 | 10 |
| S026_earthquake_catalog | 地震目录处理 | 14 |
| S101_climate_attribution | 气候归因 | 12 |
| S106_seismic_denoise | 地震信号去噪 | 10 |
| S113_inventory_reorder | 库存优化 | 11 |
完整列表见论文 Figure 2。
## 三类探针
Gene-Bench 上运行三类分析探针:
- [[skill-probe|技能探针]] — 1,440 试验
- [[gene-probe|基因探针]] — 1,890 试验
- [[evolution-probe|进化探针]] — 1,260 试验
## 参考
- [[procedural-skills-to-strategy-genes|Skills to Strategy Genes]] — 构建论文
- [[critpt|CritPt]] — 外部进化验证基准
- [[gene-evolution-protocol|GEP]] — 基准的协议框架