1.8 KiB
1.8 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| Harness Evolution(轨迹驱动的 Harness 进化) | 2026-06-11 | 2026-06-11 | concept |
|
|
Harness Evolution
从训练轨迹中诊断反复出现的交互失败,通过 Coding Agent 辅助将其转化为结构化的 Harness 干预——离线进化,评估时固定。
进化流程
Life-Harness 的 Harness 进化是离线、轨迹驱动的过程:
- 收集轨迹:在训练任务上运行冻结模型,收集完整交互轨迹(trace)
- 失败诊断:对每个失败 episode 按最早主导瓶颈分配失败类别(动作实现 / 环境契约 / 轨迹退化 / 一般推理)
- 模式提炼:识别反复出现的失败模式——跨多个 episode 的共性结构
- 干预生成:Coding Agent(Codex)读取轨迹 + Harness 设计准则,生成对四层的具体更新
- 回归检测:同时检测过度触发(over-trigger)——干预是否破坏了原本正确的行为
- 固定评估:进化后的 Harness 在测试时保持固定,不再修改
两个目标
- 覆盖率扩展:让 Harness 覆盖更多已知失败模式
- 回归防止:确保新干预不破坏已有的正确行为
与 Prompt Optimization 的区别
Prompt Optimization(如 OPRO、TextGrad)优化的是模型可见文本;Harness Evolution 适配的是更广的运行时接口层,包括:
- 面向 Prompt 的契约增强
- 面向执行的动作验证
- 反馈驱动的恢复
- 轨迹级调控