Files
myWiki/concepts/harness-model-interaction.md

46 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Harness × Model 交互效应"
created: 2026-06-15
updated: 2026-06-15
type: concept
tags: [coding-agent, evaluation, multi-agent]
sources: [raw/papers/zheng-claw-swe-bench-2026.md]
---
# Harness × Model 交互效应
## 定义
Harness × Model 交互效应指的是 agent harness 选择对编码性能的影响**依赖于所使用的模型**,反之亦然。不同 harness-model 组合可能产生非加性的性能变化。Claw-SWE-Bench 通过控制变量法(固定一个维度扫掠另一个维度)首次系统量化了这种交互。
## 实验设计
Claw-SWE-Bench 采用两个互补的实验网格:
1. **Model Sweep:** 固定 OpenClaw扫掠 9 个 LLM
2. **Claw Sweep:** 固定两个代表模型GLM 5.1 和 Qwen 3.6-flash扫掠 5 个 claw
## 关键发现
### 模型轴(固定 OpenClaw
- Pass@1 跨度48.6%Seed 2.0-mini→ 78.0%GPT 5.5
- **29.4 pp 差距**
### Claw 轴(固定模型)
- GLM 5.1 下60.9%NanoBot→ 73.4%OpenClaw**12.5 pp 差距**
- Qwen 3.6-flash 下38.6%Generic→ 66.0%OpenClaw**27.4 pp 差距**
### 交互效应
- Claw 差距在小模型上更大27.4 pp vs 12.5 pp——小模型对 harness 的脆弱性和停止策略更敏感
- 不同 claw 在不同模型上的相对排序不完全一致
- NanoBot 在 GLM 5.1 下为 60.9%,在 Qwen 3.6-flash 下为 47.4%——下降幅度13.5 pp大于 OpenClaw7.4 pp
## 方法论意义
如果 harness 不被控制Leaderboard 结论可能被颠覆。Claw-SWE-Bench 通过将 harness 作为实验变量,使因果归因成为可能。
## 参考
- [[claw-swe-bench|Claw-SWE-Bench 论文]]
- [[agent-harness|Agent Harness]]
- [[cost-aware-benchmarking|代价感知基准评测]]