20260617:目前有914 页

This commit is contained in:
2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions

43
concepts/bare-adapter.md Normal file
View File

@@ -0,0 +1,43 @@
---
title: "Bare Adapter"
created: 2026-06-15
updated: 2026-06-15
type: concept
tags: [benchmark, evaluation, coding-agent]
sources: [raw/papers/zheng-claw-swe-bench-2026.md]
---
# Bare Adapter
## 定义
Bare Adapter 是 Claw-SWE-Bench 中定义的**诊断基线**——提供最小化的 Docker 集成,要求模型直接在最终响应中输出 unified diff。它不是 Full Adapter 的逐组件消融,而是测试"最小接入是否足以创建可靠的 SWE-bench 评测目标"。
## 与 Full Adapter 的对比
| 能力 | Bare Adapter | Full Adapter |
|------|-------------|-------------|
| Docker 进入 | ✅ | ✅ |
| 发送 issue 描述 | ✅ | ✅ |
| 禁用不公平的网络检索 | ✅ | ✅ |
| Workspace 对齐 | ❌ | ✅ |
| Future-Commit 清理 | ❌ | ✅ |
| 共享阶段 Prompt | ❌ | ✅ |
| Git-based Patch 提取 | ❌ | ✅ |
| Patch 清理 | ❌ | ✅ |
| 输出方式 | 模型输出 unified diff | Runner 从仓库状态导出 diff |
## 实验结果
- **Pass@1:** 19.1%GLM 5.1
- **Apply Failed:** 69.1%
- **瓶颈:** 不是模型不能编辑代码,而是直接生成 unified-diff 文本的脆弱性
## 诊断价值
Bare Adapter 证明了 adapter 设计**不是工程包装,而是评分可靠性的必要条件**——最小接入无法使通用 agent 成为 SWE-bench 的可靠评测目标。
## 参考
- [[claw-swe-bench|Claw-SWE-Bench 论文]]
- [[adapter-protocol|适配器协议]]
- [[patch-based-evaluation|Patch-Based Evaluation]]