AutoHarness: 自动合成代码 Harness 来改进 LLM Agent

论文: Lou, Lázaro-Gredilla, Dedieu, Wendelken, Lehrach & Murphy (Google DeepMind, 2026) — arXiv:2603.03329

核心问题

LLM Agent 在游戏等结构环境中频繁产出非法动作：在 Kaggle GameArena 国际象棋比赛中，Gemini-2.5-Flash 78% 的失利源于非法走子——不是策略错误，而是根本违反规则。

传统方案（手写 harness / fine-tuning）要么脆弱费力，要么昂贵且损害通用能力。能否让 LLM 自动为自己的"非法行为"合成保护代码？

AutoHarness 用 LLM 自身的代码生成能力来弥合这一鸿沟：

100% 合法动作率：在 145 个 TextArena 游戏上完全消除非法动作
小模型胜大模型：Gemini-2.5-Flash + Harness 胜 Gemini-2.5-Pro
Code-as-Policy 巅峰：生成的纯代码策略在 16 个 1P 游戏上平均 reward 0.870，超过 GPT-5.2-High (0.844)
零推理成本：Harness-as-Policy 测试时成本趋近于零（vs GPT-5.2 的 ~$640）

用一个较小的模型为自己的"短板"自动合成保护代码，其效果可以超过一个裸奔的更大模型——而且更便宜。

这体现了 code-as-harness 的根本哲学：不是让 LLM 变得完美，而是让它可以被代码约束和保护。