20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/papers/arbor-htr-2026.md
+++ b/papers/arbor-htr-2026.md
@@ -0,0 +1,104 @@
+---
+title: "Arbor: Hypothesis-Tree Refinement (Jin et al., RUC/MSR, 2026)"
+created: 2026-06-24
+updated: 2026-06-24
+type: paper
+tags: ["autonomous-research", "agent", "hypothesis-tree", "coordinator-executor"]
+sources:
+  - "https://arxiv.org/abs/2606.11926"
+code: "https://github.com/RUC-NLPIR/Arbor"
+---
+
+# Arbor: Autonomous Research via Hypothesis-Tree Refinement
+
+> Jin et al. | Renmin University / Microsoft Research | arXiv:2606.11926 | Jun 2026
+
+## 问题
+
+AI Agent 做自主科研面临三个系统性需求：
+1. **分支且有结构**：多方向必须并存但不能退化为无结构日志
+2. **全局策略 + 局部执行**：战略决策依赖全局证据，但单假设实现是短程工程任务
+3. **探索与 held-out 准入**：dev 反馈引导搜索，但进展只在 transfer 到 test 时才被承认
+
+现有 Agent（Codex, Claude Code）将科研视为局部尝试的序列，缺乏累积机制。
+
+## [[hypothesis-tree-refinement|Hypothesis Tree Refinement (HTR)]]
+
+Arbor 的核心创新：将自主科研的中间状态从"最新产物 + 分数"升级为**持久化的假设树**。
+
+### 树的节点 = ⟨h, ι, µ⟩
+
+| 字段 | 含义 | 作用 |
+|------|------|------|
+| **h (Hypothesis)** | 可验证/可证伪的改进主张 | 粒度随深度细化（根=方向，叶=具体干预） |
+| **ι (Insight)** | 可复用的证据解读 | 紧凑语义记忆，非执行日志 |
+| **µ (Metadata)** | 状态/分数/git ref | 链接到可验证的外部产物 |
+
+### 三种角色合一
+1. **搜索前沿**：记录活跃/验证/剪枝的方向
+2. **长期记忆**：存储成功+失败的复用证据
+3. **可审计记录**：每个产物变更可追溯到动机假设
+
+### Insight Backpropagation
+叶子执行 → 本地洞察写回 → 沿祖先路径向上传播 → 抽象为方向级经验 → 最终贡献到全局 compact understanding
+
+## [[coordinator-executor-architecture|Coordinator ↔ Executor 架构]]
+
+```
+Coordinator (持久)              Executor (短生命周期, 隔离 worktree)
+├── 维护全局树                   ├── 接收单个节点
+├── 决定扩展/选择/剪枝/合并      ├── 在隔离环境中物化实现
+├── 传播洞察                    ├── 运行评估
+└── 管理搜索前沿                └── 返回结构化报告 (分数+事实+洞察+产物引用)
+```
+
+关键边界：Executor 不修改共享树、不重定向搜索目标；Coordinator 不直接执行低层实现。
+
+## [[autonomous-optimization-ao|Autonomous Optimization (AO)]]
+
+AO = (M0, O, Edev, Etest) 的形式化任务定义：
+- M0：可变产物（通常为代码库 + 数据）
+- O：改进目标（指标方向）
+- Edev：开发评估器（搜索期间自由使用）
+- Etest：held-out 评估器（仅用于 merge gate）
+
+目标：返回 max Stest(M') 的产物 M⋆，且 Etest 未被用作探索 oracle。
+
+## 关键结果
+
+### 六项真实科研任务
+
+| 任务类型 | Arbor 表现 |
+|---------|-----------|
+| Math Synthesis (AIME) | Test: +6.32% |
+| Harness Engineering (TerminalBench) | Test: +7.55 |
+| BrowseComp | Test: +22.34 |
+| Model Training | Best held-out |
+| Architecture Search | Best held-out |
+
+### 对比
+
+| 方法 | 平均相对 held-out 增益 (归一化) |
+|------|-------------------------------|
+| Codex | 1.0× |
+| Claude Code | 0.8× |
+| **Arbor** | **2.5×** |
+
+### MLE-Bench Lite
+
+GPT-5.5 + Arbor → **86.36%** Any Medal（对比中最强）
+
+### Ablation 关键发现
+
+假设树 + 洞察反馈联合使用效果最强——单独使用任何一个都显著低于联合。
+
+## 核心洞察
+
+1. **将研究状态从"最新产物"升级为"搜索树"** — 自主科研的核心瓶颈不是模型能力，而是缺乏持久化的研究方向组织和经验传承。Arbor 证明一棵维护良好的假设树能产生 2.5× 增益。
+
+2. **Coordinator-Executor 分离** — 全局战略和局部执行应由不同生命周期管理。这与 sz 正在设计的 Agent Harness 中"多维度约束拆分"的方向高度共振。
+
+3. **洞察 ≠ 日志** — Insight 是紧凑语义记忆（"轴统计量单独不够；替换 NS 会破坏全矩阵几何"），不是执行日志。这种抽象层次是树可以保持紧凑且有用的关键。
+
+## 来源
+[原始存档](raw/papers/arbor-htr-2026.md) | [arXiv](https://arxiv.org/abs/2606.11926) | [GitHub](https://github.com/RUC-NLPIR/Arbor)