Files
myWiki/papers/arbor-htr-2026.md

105 lines
4.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Arbor: Hypothesis-Tree Refinement (Jin et al., RUC/MSR, 2026)"
created: 2026-06-24
updated: 2026-06-24
type: paper
tags: ["autonomous-research", "agent", "hypothesis-tree", "coordinator-executor"]
sources:
- "https://arxiv.org/abs/2606.11926"
code: "https://github.com/RUC-NLPIR/Arbor"
---
# Arbor: Autonomous Research via Hypothesis-Tree Refinement
> Jin et al. | Renmin University / Microsoft Research | arXiv:2606.11926 | Jun 2026
## 问题
AI Agent 做自主科研面临三个系统性需求:
1. **分支且有结构**:多方向必须并存但不能退化为无结构日志
2. **全局策略 + 局部执行**:战略决策依赖全局证据,但单假设实现是短程工程任务
3. **探索与 held-out 准入**dev 反馈引导搜索,但进展只在 transfer 到 test 时才被承认
现有 AgentCodex, Claude Code将科研视为局部尝试的序列缺乏累积机制。
## [[hypothesis-tree-refinement|Hypothesis Tree Refinement (HTR)]]
Arbor 的核心创新:将自主科研的中间状态从"最新产物 + 分数"升级为**持久化的假设树**。
### 树的节点 = ⟨h, ι, µ⟩
| 字段 | 含义 | 作用 |
|------|------|------|
| **h (Hypothesis)** | 可验证/可证伪的改进主张 | 粒度随深度细化(根=方向,叶=具体干预) |
| **ι (Insight)** | 可复用的证据解读 | 紧凑语义记忆,非执行日志 |
| **µ (Metadata)** | 状态/分数/git ref | 链接到可验证的外部产物 |
### 三种角色合一
1. **搜索前沿**:记录活跃/验证/剪枝的方向
2. **长期记忆**:存储成功+失败的复用证据
3. **可审计记录**:每个产物变更可追溯到动机假设
### Insight Backpropagation
叶子执行 → 本地洞察写回 → 沿祖先路径向上传播 → 抽象为方向级经验 → 最终贡献到全局 compact understanding
## [[coordinator-executor-architecture|Coordinator ↔ Executor 架构]]
```
Coordinator (持久) Executor (短生命周期, 隔离 worktree)
├── 维护全局树 ├── 接收单个节点
├── 决定扩展/选择/剪枝/合并 ├── 在隔离环境中物化实现
├── 传播洞察 ├── 运行评估
└── 管理搜索前沿 └── 返回结构化报告 (分数+事实+洞察+产物引用)
```
关键边界Executor 不修改共享树、不重定向搜索目标Coordinator 不直接执行低层实现。
## [[autonomous-optimization-ao|Autonomous Optimization (AO)]]
AO = (M0, O, Edev, Etest) 的形式化任务定义:
- M0可变产物通常为代码库 + 数据)
- O改进目标指标方向
- Edev开发评估器搜索期间自由使用
- Etestheld-out 评估器(仅用于 merge gate
目标:返回 max Stest(M') 的产物 M⋆且 Etest 未被用作探索 oracle。
## 关键结果
### 六项真实科研任务
| 任务类型 | Arbor 表现 |
|---------|-----------|
| Math Synthesis (AIME) | Test: +6.32% |
| Harness Engineering (TerminalBench) | Test: +7.55 |
| BrowseComp | Test: +22.34 |
| Model Training | Best held-out |
| Architecture Search | Best held-out |
### 对比
| 方法 | 平均相对 held-out 增益 (归一化) |
|------|-------------------------------|
| Codex | 1.0× |
| Claude Code | 0.8× |
| **Arbor** | **2.5×** |
### MLE-Bench Lite
GPT-5.5 + Arbor → **86.36%** Any Medal对比中最强
### Ablation 关键发现
假设树 + 洞察反馈联合使用效果最强——单独使用任何一个都显著低于联合。
## 核心洞察
1. **将研究状态从"最新产物"升级为"搜索树"** — 自主科研的核心瓶颈不是模型能力而是缺乏持久化的研究方向组织和经验传承。Arbor 证明一棵维护良好的假设树能产生 2.5× 增益。
2. **Coordinator-Executor 分离** — 全局战略和局部执行应由不同生命周期管理。这与 sz 正在设计的 Agent Harness 中"多维度约束拆分"的方向高度共振。
3. **洞察 ≠ 日志** — Insight 是紧凑语义记忆("轴统计量单独不够;替换 NS 会破坏全矩阵几何"),不是执行日志。这种抽象层次是树可以保持紧凑且有用的关键。
## 来源
[原始存档](raw/papers/arbor-htr-2026.md) | [arXiv](https://arxiv.org/abs/2606.11926) | [GitHub](https://github.com/RUC-NLPIR/Arbor)