Files
myWiki/papers/lou-autoharness-2026.md
2026-06-01 10:46:01 +08:00

2.7 KiB
Raw Blame History

title, created, updated, type, arxiv, authors, venue, tags, sources
title created updated type arxiv authors venue tags sources
AutoHarness: LLM Agent 的自动代码 Harness 合成 2026-05-29 2026-05-29 paper 2603.03329
Xinghua Lou
Miguel Lázaro-Gredilla
Antoine Dedieu
Carter Wendelken
Wolfgang Lehrach
Kevin P. Murphy
arXiv cs.CL, February 2026
agent
code-synthesis
game-playing
harness
LLM
https://arxiv.org/abs/2603.03329

AutoHarness: 自动合成代码 Harness 来改进 LLM Agent

论文: Lou, Lázaro-Gredilla, Dedieu, Wendelken, Lehrach & Murphy (Google DeepMind, 2026) — arXiv:2603.03329

核心问题

LLM Agent 在游戏等结构环境中频繁产出非法动作:在 Kaggle GameArena 国际象棋比赛中Gemini-2.5-Flash 78% 的失利源于非法走子——不是策略错误,而是根本违反规则

传统方案(手写 harness / fine-tuning要么脆弱费力要么昂贵且损害通用能力。能否让 LLM 自动为自己的"非法行为"合成保护代码?

方法Code-as-Harness

AutoHarness 用 LLM 自身的代码生成能力来弥合这一鸿沟:

搜索机制

  • Thompson Sampling 引导的树搜索:在 harness 代码空间中平衡探索与利用
  • LLM 作为 mutation operator基于环境 feedback 迭代改进代码
  • Critic 提供反馈:动作合法性、环境 reward

三种 Harness 模式

模式 机制 LLM 角色
**[[harness-as-action-verifier Verifier]]** LLM 提议 → 代码验证 → 非法则重试
Action Filter 代码生成合法动作集合 → LLM 排序 排序者
**[[harness-as-policy Policy]]** 代码直接选动作 → 无需 LLM 推理

关键结果

  1. 100% 合法动作率:在 145 个 TextArena 游戏上完全消除非法动作
  2. 小模型胜大模型Gemini-2.5-Flash + Harness 胜 Gemini-2.5-Pro
  3. Code-as-Policy 巅峰:生成的纯代码策略在 16 个 1P 游戏上平均 reward 0.870,超过 GPT-5.2-High (0.844)
  4. 零推理成本Harness-as-Policy 测试时成本趋近于零vs GPT-5.2 的 ~$640

核心洞察

用一个较小的模型为自己的"短板"自动合成保护代码,其效果可以超过一个裸奔的更大模型——而且更便宜。

这体现了 code-as-harness 的根本哲学:不是让 LLM 变得完美,而是让它可以被代码约束和保护。

概念网络