title, created, updated, type, tags, sources
| title |
created |
updated |
type |
tags |
sources |
| Harness-as-Action-Verifier |
2026-05-29 |
2026-05-29 |
concept |
| agent |
| verification |
| code-synthesis |
| LLM |
|
|
Harness-as-Action-Verifier
Harness-as-Action-Verifier 是 autoharness 的核心 harness 模式:LLM 负责提出动作,代码 harness 负责验证其合法性——非法则让 LLM 重新提议。
工作流程
本质上是一个 rejection sampler,其中 acceptance condition (is_legal_action()) 是从环境 feedback 中学习的。
训练
- 10 个并行环境,每个 rollout 最多 1000 步
- 遇到非法动作即终止 rollout
- 最多采样 5 个失败步 → Critic 分析 → Refiner 生成改进代码
- Thompson sampling 引导搜索方向
- 平均 14.5 次迭代完成训练
成果
- 145 个 TextArena 游戏上 100% 合法动作率
- Gemini-2.5-Flash + Verifier 胜 Gemini-2.5-Pro(裸奔)
与 Action Filter 的区别
| 特性 |
Verifier |
Action Filter |
| LLM 角色 |
策略制定者 |
排序者 |
| 动作生成 |
LLM 自由提议 |
代码枚举合法动作 |
| 适用场景 |
动作空间大 |
动作空间可控 |
相关