2.7 KiB
2.7 KiB
title, created, updated, type, arxiv, authors, venue, tags, sources
| title | created | updated | type | arxiv | authors | venue | tags | sources | ||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| AutoHarness: LLM Agent 的自动代码 Harness 合成 | 2026-05-29 | 2026-05-29 | paper | 2603.03329 |
|
arXiv cs.CL, February 2026 |
|
|
AutoHarness: 自动合成代码 Harness 来改进 LLM Agent
论文: Lou, Lázaro-Gredilla, Dedieu, Wendelken, Lehrach & Murphy (Google DeepMind, 2026) — arXiv:2603.03329
核心问题
LLM Agent 在游戏等结构环境中频繁产出非法动作:在 Kaggle GameArena 国际象棋比赛中,Gemini-2.5-Flash 78% 的失利源于非法走子——不是策略错误,而是根本违反规则。
传统方案(手写 harness / fine-tuning)要么脆弱费力,要么昂贵且损害通用能力。能否让 LLM 自动为自己的"非法行为"合成保护代码?
方法:Code-as-Harness
AutoHarness 用 LLM 自身的代码生成能力来弥合这一鸿沟:
搜索机制
- Thompson Sampling 引导的树搜索:在 harness 代码空间中平衡探索与利用
- LLM 作为 mutation operator:基于环境 feedback 迭代改进代码
- Critic 提供反馈:动作合法性、环境 reward
三种 Harness 模式
| 模式 | 机制 | LLM 角色 |
|---|---|---|
| **[[harness-as-action-verifier | Verifier]]** | LLM 提议 → 代码验证 → 非法则重试 |
| Action Filter | 代码生成合法动作集合 → LLM 排序 | 排序者 |
| **[[harness-as-policy | Policy]]** | 代码直接选动作 → 无需 LLM 推理 |
关键结果
- 100% 合法动作率:在 145 个 TextArena 游戏上完全消除非法动作
- 小模型胜大模型:Gemini-2.5-Flash + Harness 胜 Gemini-2.5-Pro
- Code-as-Policy 巅峰:生成的纯代码策略在 16 个 1P 游戏上平均 reward 0.870,超过 GPT-5.2-High (0.844)
- 零推理成本:Harness-as-Policy 测试时成本趋近于零(vs GPT-5.2 的 ~$640)
核心洞察
用一个较小的模型为自己的"短板"自动合成保护代码,其效果可以超过一个裸奔的更大模型——而且更便宜。
这体现了 code-as-harness 的根本哲学:不是让 LLM 变得完美,而是让它可以被代码约束和保护。
概念网络
- autoharness — 方法总览
- code-as-harness — 框架哲学
- harness-as-action-verifier — 验证模式
- harness-as-policy — 代码即策略
- thompson-sampling-code-search — 搜索算法
- iterative-code-refinement — 迭代精炼
- action-applicability — 动作合法性判定问题