Files
myWiki/concepts/harness-model-interaction.md

1.7 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Harness × Model 交互效应 2026-06-15 2026-06-15 concept
coding-agent
evaluation
multi-agent
raw/papers/zheng-claw-swe-bench-2026.md

Harness × Model 交互效应

定义

Harness × Model 交互效应指的是 agent harness 选择对编码性能的影响依赖于所使用的模型,反之亦然。不同 harness-model 组合可能产生非加性的性能变化。Claw-SWE-Bench 通过控制变量法(固定一个维度扫掠另一个维度)首次系统量化了这种交互。

实验设计

Claw-SWE-Bench 采用两个互补的实验网格:

  1. Model Sweep: 固定 OpenClaw扫掠 9 个 LLM
  2. Claw Sweep: 固定两个代表模型GLM 5.1 和 Qwen 3.6-flash扫掠 5 个 claw

关键发现

模型轴(固定 OpenClaw

  • Pass@1 跨度48.6%Seed 2.0-mini→ 78.0%GPT 5.5
  • 29.4 pp 差距

Claw 轴(固定模型)

  • GLM 5.1 下60.9%NanoBot→ 73.4%OpenClaw12.5 pp 差距
  • Qwen 3.6-flash 下38.6%Generic→ 66.0%OpenClaw27.4 pp 差距

交互效应

  • Claw 差距在小模型上更大27.4 pp vs 12.5 pp——小模型对 harness 的脆弱性和停止策略更敏感
  • 不同 claw 在不同模型上的相对排序不完全一致
  • NanoBot 在 GLM 5.1 下为 60.9%,在 Qwen 3.6-flash 下为 47.4%——下降幅度13.5 pp大于 OpenClaw7.4 pp

方法论意义

如果 harness 不被控制Leaderboard 结论可能被颠覆。Claw-SWE-Bench 通过将 harness 作为实验变量,使因果归因成为可能。

参考