Files
myWiki/concepts/autonomous-optimization-ao.md

1.3 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Autonomous Optimization (AO) 2026-06-24 2026-06-24 concept
autonomous-research
task-formulation
evaluation
arbor-htr-2026

Autonomous Optimization (AO)

AO 是 Arbor 提出的自主科研任务形式化模型P = (M0, O, Edev, Etest)Agent 通过迭代实验改进研究产物,无需步骤级人工监督。

四元组

元素 含义 约束
M0 可变初始产物(代码库+数据) Agent 可检查、修改
O 改进目标(指标方向) 标量目标,越大越好
Edev 开发评估器 搜索期间自由使用
Etest Held-out 评估器 仅用于 merge gate不可做探索 oracle

关键约束

目标M⋆ = arg max Stest(M') 约束:假设和实现决策不使用 Etest 作为探索 oracle

这防止了过拟合——在 dev 上改进但无法 transfer 到 test 的候选不应被接受。

与普通 Agentic Tool Use 的区别

AO 的目标不是单一响应或代码补丁,而是持续的研究轨迹。Agent 必须提出假设、物化为产物变更、解读实验反馈,并决定哪些方向应该精炼、合并或放弃。

参考