20260617:目前有914 页
This commit is contained in:
45
concepts/harness-model-interaction.md
Normal file
45
concepts/harness-model-interaction.md
Normal file
@@ -0,0 +1,45 @@
|
||||
---
|
||||
title: "Harness × Model 交互效应"
|
||||
created: 2026-06-15
|
||||
updated: 2026-06-15
|
||||
type: concept
|
||||
tags: [coding-agent, evaluation, multi-agent]
|
||||
sources: [raw/papers/zheng-claw-swe-bench-2026.md]
|
||||
---
|
||||
|
||||
# Harness × Model 交互效应
|
||||
|
||||
## 定义
|
||||
|
||||
Harness × Model 交互效应指的是 agent harness 选择对编码性能的影响**依赖于所使用的模型**,反之亦然。不同 harness-model 组合可能产生非加性的性能变化。Claw-SWE-Bench 通过控制变量法(固定一个维度扫掠另一个维度)首次系统量化了这种交互。
|
||||
|
||||
## 实验设计
|
||||
|
||||
Claw-SWE-Bench 采用两个互补的实验网格:
|
||||
|
||||
1. **Model Sweep:** 固定 OpenClaw,扫掠 9 个 LLM
|
||||
2. **Claw Sweep:** 固定两个代表模型(GLM 5.1 和 Qwen 3.6-flash),扫掠 5 个 claw
|
||||
|
||||
## 关键发现
|
||||
|
||||
### 模型轴(固定 OpenClaw)
|
||||
- Pass@1 跨度:48.6%(Seed 2.0-mini)→ 78.0%(GPT 5.5)
|
||||
- **29.4 pp 差距**
|
||||
|
||||
### Claw 轴(固定模型)
|
||||
- GLM 5.1 下:60.9%(NanoBot)→ 73.4%(OpenClaw),**12.5 pp 差距**
|
||||
- Qwen 3.6-flash 下:38.6%(Generic)→ 66.0%(OpenClaw),**27.4 pp 差距**
|
||||
|
||||
### 交互效应
|
||||
- Claw 差距在小模型上更大(27.4 pp vs 12.5 pp)——小模型对 harness 的脆弱性和停止策略更敏感
|
||||
- 不同 claw 在不同模型上的相对排序不完全一致
|
||||
- NanoBot 在 GLM 5.1 下为 60.9%,在 Qwen 3.6-flash 下为 47.4%——下降幅度(13.5 pp)大于 OpenClaw(7.4 pp)
|
||||
|
||||
## 方法论意义
|
||||
|
||||
如果 harness 不被控制,Leaderboard 结论可能被颠覆。Claw-SWE-Bench 通过将 harness 作为实验变量,使因果归因成为可能。
|
||||
|
||||
## 参考
|
||||
- [[claw-swe-bench|Claw-SWE-Bench 论文]]
|
||||
- [[agent-harness|Agent Harness]]
|
||||
- [[cost-aware-benchmarking|代价感知基准评测]]
|
||||
Reference in New Issue
Block a user