40 lines
1.6 KiB
Markdown
40 lines
1.6 KiB
Markdown
---
|
||
title: "Practitioner-Research Gap(从业者-研究鸿沟)"
|
||
created: 2026-05-30
|
||
updated: 2026-05-30
|
||
type: concept
|
||
tags: [agent, production, research, gap]
|
||
sources: [[agent-harness-engineering-survey]]
|
||
confidence: high
|
||
---
|
||
|
||
# Practitioner-Research Gap
|
||
|
||
> 从业者知道 Harness 基础设施很重要,但缺乏正式词汇来描述"为什么"——这是《Agent Harness Engineering: A Survey》试图弥合的核心鸿沟。
|
||
|
||
## 鸿沟的两侧
|
||
|
||
### 从业者侧(已知但未形式化)
|
||
- OpenAI:Harness engineering 定义为"设计环境、约束、文档和反馈循环"
|
||
- Anthropic:有效 Agent 应使用简单可检查架构、为 Agent 而非人类设计工具接口
|
||
- 从业者在实践中大量投资 Harness,但缺少统一的理论框架
|
||
|
||
### 研究者侧(已研究但未整合)
|
||
- 学术界分别研究了记忆、工具使用、规划、安全等**组件**
|
||
- 但缺少对这些组件如何**整合成可靠运行系统**的系统性研究
|
||
- 研究社区仍以模型为分析单元
|
||
|
||
## 三个 Harmess-Only 证据
|
||
|
||
论文用三个实证结果证明了 Harness 的独立价值(模型固定,只改变 Harness):
|
||
1. **Bölük (2026a)**:只修改 tool harness,编程基准增益达 10×
|
||
2. **Trivedy (2026)**:系统 prompt 重构 + 中间件注入,Terminal-Bench 2.0 从 52.8% → 66.5%
|
||
3. **Meta-Harness (Lee et al., 2026)**:自动化 harness 优化,Terminal-Bench-2 达 76.4%
|
||
|
||
这三项结果均超过同期"模型改进"的典型 2-4 个百分点增益。
|
||
|
||
## 相关概念
|
||
- [[binding-constraint-thesis]] — 约束瓶颈论
|
||
- [[prompt-to-harness-evolution]] — 三阶段工程演进
|
||
- [[agent-harness-engineering]] — 总体框架
|