Files
myWiki/papers/lou-autoharness-2026.md
2026-06-01 10:46:01 +08:00

62 lines
2.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "AutoHarness: LLM Agent 的自动代码 Harness 合成"
created: 2026-05-29
updated: 2026-05-29
type: paper
arxiv: "2603.03329"
authors: ["Xinghua Lou", "Miguel Lázaro-Gredilla", "Antoine Dedieu", "Carter Wendelken", "Wolfgang Lehrach", "Kevin P. Murphy"]
venue: "arXiv cs.CL, February 2026"
tags: ["agent", "code-synthesis", "game-playing", "harness", "LLM"]
sources: ["https://arxiv.org/abs/2603.03329"]
---
# AutoHarness: 自动合成代码 Harness 来改进 LLM Agent
> **论文**: Lou, Lázaro-Gredilla, Dedieu, Wendelken, Lehrach & Murphy (Google DeepMind, 2026) — arXiv:2603.03329
## 核心问题
LLM Agent 在游戏等结构环境中频繁产出**非法动作**:在 Kaggle GameArena 国际象棋比赛中Gemini-2.5-Flash 78% 的失利源于非法走子——不是策略错误,而是**根本违反规则**。
传统方案(手写 harness / fine-tuning要么脆弱费力要么昂贵且损害通用能力。**能否让 LLM 自动为自己的"非法行为"合成保护代码?**
## 方法Code-as-Harness
AutoHarness 用 LLM 自身的代码生成能力来弥合这一鸿沟:
### 搜索机制
- **Thompson Sampling 引导的树搜索**:在 harness 代码空间中平衡探索与利用
- LLM 作为 mutation operator基于环境 feedback 迭代改进代码
- Critic 提供反馈:动作合法性、环境 reward
### 三种 Harness 模式
| 模式 | 机制 | LLM 角色 |
|------|------|----------|
| **[[harness-as-action-verifier|Verifier]]** | LLM 提议 → 代码验证 → 非法则重试 | 策略制定者 |
| **Action Filter** | 代码生成合法动作集合 → LLM 排序 | 排序者 |
| **[[harness-as-policy|Policy]]** | 代码直接选动作 → **无需 LLM 推理** | 仅在训练时使用 |
## 关键结果
1. **100% 合法动作率**:在 145 个 TextArena 游戏上完全消除非法动作
2. **小模型胜大模型**Gemini-2.5-Flash + Harness 胜 Gemini-2.5-Pro
3. **Code-as-Policy 巅峰**:生成的纯代码策略在 16 个 1P 游戏上平均 reward **0.870**,超过 GPT-5.2-High (0.844)
4. **零推理成本**Harness-as-Policy 测试时成本趋近于零vs GPT-5.2 的 ~$640
## 核心洞察
> 用一个较小的模型为自己的"短板"自动合成保护代码,其效果可以超过一个裸奔的更大模型——而且更便宜。
这体现了 [[code-as-harness]] 的根本哲学:**不是让 LLM 变得完美,而是让它可以被代码约束和保护。**
## 概念网络
- [[autoharness]] — 方法总览
- [[code-as-harness]] — 框架哲学
- [[harness-as-action-verifier]] — 验证模式
- [[harness-as-policy]] — 代码即策略
- [[thompson-sampling-code-search]] — 搜索算法
- [[iterative-code-refinement]] — 迭代精炼
- [[action-applicability]] — 动作合法性判定问题