20260601
This commit is contained in:
54
reviews/lou-autoharness-review.md
Normal file
54
reviews/lou-autoharness-review.md
Normal file
@@ -0,0 +1,54 @@
|
||||
---
|
||||
title: "Review: AutoHarness — 自动合成代码 Harness 改进 LLM Agent"
|
||||
created: 2026-05-29
|
||||
type: review
|
||||
paper: "lou-autoharness-2026"
|
||||
arxiv: "2603.03329"
|
||||
---
|
||||
|
||||
# 📌 Review: AutoHarness
|
||||
|
||||
**论文**: AutoHarness: improving LLM agents by automatically synthesizing a code harness
|
||||
**作者**: Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, Carter Wendelken, Wolfgang Lehrach, Kevin P. Murphy
|
||||
**机构**: Google DeepMind
|
||||
**arXiv**: 2603.03329 | **领域**: cs.CL | **时间**: 2026-05-29
|
||||
|
||||
---
|
||||
|
||||
## 🎯 核心概念
|
||||
|
||||
1. **[[autoharness|AutoHarness]]** — LLM 自动合成为自己服务的代码 harness,消除 Agent 的非法动作
|
||||
2. **[[code-as-harness|Code as Harness]]** — LLM + auto-generated plumbing 的框架哲学:不是让模型完美,而是让它可以被代码约束
|
||||
3. **[[harness-as-action-verifier|Harness-as-Action-Verifier]]** — LLM 提议动作 → 代码验证合法性 → 非法则重试的 rejection sampling 模式
|
||||
4. **[[harness-as-policy|Harness-as-Policy]]** — 代码直接决策,推理时零 LLM 调用:小模型 Flash 训练出的 policy 超越 GPT-5.2-High
|
||||
5. **[[thompson-sampling-code-search|Thompson Sampling Code Search]]** — 在代码假设树中平衡探索与利用的搜索算法
|
||||
6. **[[iterative-code-refinement|Iterative Code Refinement]]** — LLM 作为 gradient-free optimizer,基于环境 feedback 反复改进代码
|
||||
7. **[[action-applicability|Action Applicability]]** — AI Agent 在给定状态下判定动作合法性的基本问题
|
||||
|
||||
---
|
||||
|
||||
## 🔗 概念网络
|
||||
|
||||
**核心链**: `autoharness` ↔ `code-as-harness` ↔ `harness-as-action-verifier` ↔ `iterative-code-refinement` ↔ `thompson-sampling-code-search`
|
||||
|
||||
**终极形态**: `harness-as-policy` — 从 LLM+harness 到纯代码策略,完全消除推理时 LLM 依赖
|
||||
|
||||
**问题→解**: `action-applicability` → `code-as-harness`
|
||||
|
||||
---
|
||||
|
||||
## 📚 Wiki 集成
|
||||
|
||||
- **新增页面**: 9 个(1 论文 + 1 raw + 7 概念)
|
||||
- **链接完整性**: 100% 无断链 ✅
|
||||
- **总规模**: 512 → 520 页
|
||||
|
||||
---
|
||||
|
||||
## 💡 关键洞察
|
||||
|
||||
**1. "小模型 + 代码外壳 > 大模型裸奔"**:这是本文最反直觉的结果。Gemini-2.5-Flash(小模型)加上自己生成的代码 harness,不仅在合法性上完胜,在最终 reward 上也超越了 Gemini-2.5-Pro 甚至 GPT-5.2-High。这说明 LLM 能力的瓶颈往往不在"智能"本身,而在与结构化环境的接口可靠性。
|
||||
|
||||
**2. 从 rejection sampling 到 code-as-policy 的连续谱**:论文优雅地展示了 harness 的三个抽象层级——从最保守的 verifier(LLM 仍负责决策)到最激进的 policy(代码全权决策)。这个连续谱为不同场景提供了灵活的部署选择。
|
||||
|
||||
**3. 递归自我改进的潜力**:论文展望了将 domain-specific harness 蒸馏回 base LLM 的未来方向——如果 harness 学习到的"合法性直觉"能被吸收进 LLM 本身,整个系统就实现了递归自我改进。这与 [[hyperagents]] 中的自我修改框架形成有趣的呼应。
|
||||
Reference in New Issue
Block a user