SidneyZhang/myWiki

Fork 0

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

4.3 KiB

Raw Blame History

title, created, updated, type, tags, sources, code

title

created

updated

type

Arbor: Autonomous Research via Hypothesis-Tree Refinement

Jin et al. | Renmin University / Microsoft Research | arXiv:2606.11926 | Jun 2026

问题

AI Agent 做自主科研面临三个系统性需求：

分支且有结构：多方向必须并存但不能退化为无结构日志
全局策略 + 局部执行：战略决策依赖全局证据，但单假设实现是短程工程任务
探索与 held-out 准入：dev 反馈引导搜索，但进展只在 transfer 到 test 时才被承认

现有 Agent（Codex, Claude Code）将科研视为局部尝试的序列，缺乏累积机制。

hypothesis-tree-refinement

Arbor 的核心创新：将自主科研的中间状态从"最新产物 + 分数"升级为持久化的假设树。

树的节点 = ⟨h, ι, µ⟩

字段	含义	作用
h (Hypothesis)	可验证/可证伪的改进主张	粒度随深度细化（根=方向，叶=具体干预）
ι (Insight)	可复用的证据解读	紧凑语义记忆，非执行日志
µ (Metadata)	状态/分数/git ref	链接到可验证的外部产物

三种角色合一

搜索前沿：记录活跃/验证/剪枝的方向
长期记忆：存储成功+失败的复用证据
可审计记录：每个产物变更可追溯到动机假设

Insight Backpropagation

叶子执行 → 本地洞察写回 → 沿祖先路径向上传播 → 抽象为方向级经验 → 最终贡献到全局 compact understanding

coordinator-executor-architecture

Coordinator (持久)              Executor (短生命周期, 隔离 worktree)
├── 维护全局树                   ├── 接收单个节点
├── 决定扩展/选择/剪枝/合并      ├── 在隔离环境中物化实现
├── 传播洞察                    ├── 运行评估
└── 管理搜索前沿                └── 返回结构化报告 (分数+事实+洞察+产物引用)

关键边界：Executor 不修改共享树、不重定向搜索目标；Coordinator 不直接执行低层实现。

autonomous-optimization-ao

AO = (M0, O, Edev, Etest) 的形式化任务定义：

M0：可变产物（通常为代码库 + 数据）
O：改进目标（指标方向）
Edev：开发评估器（搜索期间自由使用）
Etest：held-out 评估器（仅用于 merge gate）

目标：返回 max Stest(M') 的产物 M⋆，且 Etest 未被用作探索 oracle。

关键结果

六项真实科研任务

任务类型	Arbor 表现
Math Synthesis (AIME)	Test: +6.32%
Harness Engineering (TerminalBench)	Test: +7.55
BrowseComp	Test: +22.34
Model Training	Best held-out
Architecture Search	Best held-out

对比

方法	平均相对 held-out 增益 (归一化)
Codex	1.0×
Claude Code	0.8×
Arbor	2.5×

MLE-Bench Lite

GPT-5.5 + Arbor → 86.36% Any Medal（对比中最强）

Ablation 关键发现

假设树 + 洞察反馈联合使用效果最强——单独使用任何一个都显著低于联合。

核心洞察

将研究状态从"最新产物"升级为"搜索树" — 自主科研的核心瓶颈不是模型能力，而是缺乏持久化的研究方向组织和经验传承。Arbor 证明一棵维护良好的假设树能产生 2.5× 增益。
Coordinator-Executor 分离 — 全局战略和局部执行应由不同生命周期管理。这与 sz 正在设计的 Agent Harness 中"多维度约束拆分"的方向高度共振。
洞察 ≠ 日志 — Insight 是紧凑语义记忆（"轴统计量单独不够；替换 NS 会破坏全矩阵几何"），不是执行日志。这种抽象层次是树可以保持紧凑且有用的关键。

来源

原始存档 | arXiv | GitHub

4.3 KiB Raw Blame History Unescape Escape