4.3 KiB
4.3 KiB
title, created, updated, type, tags, sources, code
| title | created | updated | type | tags | sources | code | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Arbor: Hypothesis-Tree Refinement (Jin et al., RUC/MSR, 2026) | 2026-06-24 | 2026-06-24 | paper |
|
|
https://github.com/RUC-NLPIR/Arbor |
Arbor: Autonomous Research via Hypothesis-Tree Refinement
Jin et al. | Renmin University / Microsoft Research | arXiv:2606.11926 | Jun 2026
问题
AI Agent 做自主科研面临三个系统性需求:
- 分支且有结构:多方向必须并存但不能退化为无结构日志
- 全局策略 + 局部执行:战略决策依赖全局证据,但单假设实现是短程工程任务
- 探索与 held-out 准入:dev 反馈引导搜索,但进展只在 transfer 到 test 时才被承认
现有 Agent(Codex, Claude Code)将科研视为局部尝试的序列,缺乏累积机制。
hypothesis-tree-refinement
Arbor 的核心创新:将自主科研的中间状态从"最新产物 + 分数"升级为持久化的假设树。
树的节点 = ⟨h, ι, µ⟩
| 字段 | 含义 | 作用 |
|---|---|---|
| h (Hypothesis) | 可验证/可证伪的改进主张 | 粒度随深度细化(根=方向,叶=具体干预) |
| ι (Insight) | 可复用的证据解读 | 紧凑语义记忆,非执行日志 |
| µ (Metadata) | 状态/分数/git ref | 链接到可验证的外部产物 |
三种角色合一
- 搜索前沿:记录活跃/验证/剪枝的方向
- 长期记忆:存储成功+失败的复用证据
- 可审计记录:每个产物变更可追溯到动机假设
Insight Backpropagation
叶子执行 → 本地洞察写回 → 沿祖先路径向上传播 → 抽象为方向级经验 → 最终贡献到全局 compact understanding
coordinator-executor-architecture
Coordinator (持久) Executor (短生命周期, 隔离 worktree)
├── 维护全局树 ├── 接收单个节点
├── 决定扩展/选择/剪枝/合并 ├── 在隔离环境中物化实现
├── 传播洞察 ├── 运行评估
└── 管理搜索前沿 └── 返回结构化报告 (分数+事实+洞察+产物引用)
关键边界:Executor 不修改共享树、不重定向搜索目标;Coordinator 不直接执行低层实现。
autonomous-optimization-ao
AO = (M0, O, Edev, Etest) 的形式化任务定义:
- M0:可变产物(通常为代码库 + 数据)
- O:改进目标(指标方向)
- Edev:开发评估器(搜索期间自由使用)
- Etest:held-out 评估器(仅用于 merge gate)
目标:返回 max Stest(M') 的产物 M⋆,且 Etest 未被用作探索 oracle。
关键结果
六项真实科研任务
| 任务类型 | Arbor 表现 |
|---|---|
| Math Synthesis (AIME) | Test: +6.32% |
| Harness Engineering (TerminalBench) | Test: +7.55 |
| BrowseComp | Test: +22.34 |
| Model Training | Best held-out |
| Architecture Search | Best held-out |
对比
| 方法 | 平均相对 held-out 增益 (归一化) |
|---|---|
| Codex | 1.0× |
| Claude Code | 0.8× |
| Arbor | 2.5× |
MLE-Bench Lite
GPT-5.5 + Arbor → 86.36% Any Medal(对比中最强)
Ablation 关键发现
假设树 + 洞察反馈联合使用效果最强——单独使用任何一个都显著低于联合。
核心洞察
-
将研究状态从"最新产物"升级为"搜索树" — 自主科研的核心瓶颈不是模型能力,而是缺乏持久化的研究方向组织和经验传承。Arbor 证明一棵维护良好的假设树能产生 2.5× 增益。
-
Coordinator-Executor 分离 — 全局战略和局部执行应由不同生命周期管理。这与 sz 正在设计的 Agent Harness 中"多维度约束拆分"的方向高度共振。
-
洞察 ≠ 日志 — Insight 是紧凑语义记忆("轴统计量单独不够;替换 NS 会破坏全矩阵几何"),不是执行日志。这种抽象层次是树可以保持紧凑且有用的关键。