1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Practitioner-Research Gap(从业者-研究鸿沟) | 2026-05-30 | 2026-05-30 | concept |
|
|
high |
Practitioner-Research Gap
从业者知道 Harness 基础设施很重要,但缺乏正式词汇来描述"为什么"——这是《Agent Harness Engineering: A Survey》试图弥合的核心鸿沟。
鸿沟的两侧
从业者侧(已知但未形式化)
- OpenAI:Harness engineering 定义为"设计环境、约束、文档和反馈循环"
- Anthropic:有效 Agent 应使用简单可检查架构、为 Agent 而非人类设计工具接口
- 从业者在实践中大量投资 Harness,但缺少统一的理论框架
研究者侧(已研究但未整合)
- 学术界分别研究了记忆、工具使用、规划、安全等组件
- 但缺少对这些组件如何整合成可靠运行系统的系统性研究
- 研究社区仍以模型为分析单元
三个 Harmess-Only 证据
论文用三个实证结果证明了 Harness 的独立价值(模型固定,只改变 Harness):
- Bölük (2026a):只修改 tool harness,编程基准增益达 10×
- Trivedy (2026):系统 prompt 重构 + 中间件注入,Terminal-Bench 2.0 从 52.8% → 66.5%
- Meta-Harness (Lee et al., 2026):自动化 harness 优化,Terminal-Bench-2 达 76.4%
这三项结果均超过同期"模型改进"的典型 2-4 个百分点增益。
相关概念
- binding-constraint-thesis — 约束瓶颈论
- prompt-to-harness-evolution — 三阶段工程演进
- agent-harness-engineering — 总体框架