20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/harness-model-interaction.md
+++ b/concepts/harness-model-interaction.md
@@ -0,0 +1,45 @@
+---
+title: "Harness × Model 交互效应"
+created: 2026-06-15
+updated: 2026-06-15
+type: concept
+tags: [coding-agent, evaluation, multi-agent]
+sources: [raw/papers/zheng-claw-swe-bench-2026.md]
+---
+
+# Harness × Model 交互效应
+
+## 定义
+
+Harness × Model 交互效应指的是 agent harness 选择对编码性能的影响**依赖于所使用的模型**，反之亦然。不同 harness-model 组合可能产生非加性的性能变化。Claw-SWE-Bench 通过控制变量法（固定一个维度扫掠另一个维度）首次系统量化了这种交互。
+
+## 实验设计
+
+Claw-SWE-Bench 采用两个互补的实验网格：
+
+1. **Model Sweep:** 固定 OpenClaw，扫掠 9 个 LLM
+2. **Claw Sweep:** 固定两个代表模型（GLM 5.1 和 Qwen 3.6-flash），扫掠 5 个 claw
+
+## 关键发现
+
+### 模型轴（固定 OpenClaw）
+- Pass@1 跨度：48.6%（Seed 2.0-mini）→ 78.0%（GPT 5.5）
+- **29.4 pp 差距**
+
+### Claw 轴（固定模型）
+- GLM 5.1 下：60.9%（NanoBot）→ 73.4%（OpenClaw），**12.5 pp 差距**
+- Qwen 3.6-flash 下：38.6%（Generic）→ 66.0%（OpenClaw），**27.4 pp 差距**
+
+### 交互效应
+- Claw 差距在小模型上更大（27.4 pp vs 12.5 pp）——小模型对 harness 的脆弱性和停止策略更敏感
+- 不同 claw 在不同模型上的相对排序不完全一致
+- NanoBot 在 GLM 5.1 下为 60.9%，在 Qwen 3.6-flash 下为 47.4%——下降幅度（13.5 pp）大于 OpenClaw（7.4 pp）
+
+## 方法论意义
+
+如果 harness 不被控制，Leaderboard 结论可能被颠覆。Claw-SWE-Bench 通过将 harness 作为实验变量，使因果归因成为可能。
+
+## 参考
+- [[claw-swe-bench|Claw-SWE-Bench 论文]]
+- [[agent-harness|Agent Harness]]
+- [[cost-aware-benchmarking|代价感知基准评测]]