SidneyZhang/myWiki

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

1.6 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

Practitioner-Research Gap（从业者-研究鸿沟）

2026-05-30

2026-05-30

concept

agent

production

research

gap

agent-harness-engineering-survey

high

Practitioner-Research Gap

从业者知道 Harness 基础设施很重要，但缺乏正式词汇来描述"为什么"——这是《Agent Harness Engineering: A Survey》试图弥合的核心鸿沟。

鸿沟的两侧

从业者侧（已知但未形式化）

OpenAI：Harness engineering 定义为"设计环境、约束、文档和反馈循环"
Anthropic：有效 Agent 应使用简单可检查架构、为 Agent 而非人类设计工具接口
从业者在实践中大量投资 Harness，但缺少统一的理论框架

研究者侧（已研究但未整合）

学术界分别研究了记忆、工具使用、规划、安全等组件
但缺少对这些组件如何整合成可靠运行系统的系统性研究
研究社区仍以模型为分析单元

三个 Harmess-Only 证据

论文用三个实证结果证明了 Harness 的独立价值（模型固定，只改变 Harness）：

Bölük (2026a)：只修改 tool harness，编程基准增益达 10×
Trivedy (2026)：系统 prompt 重构 + 中间件注入，Terminal-Bench 2.0 从 52.8% → 66.5%
Meta-Harness (Lee et al., 2026)：自动化 harness 优化，Terminal-Bench-2 达 76.4%

这三项结果均超过同期"模型改进"的典型 2-4 个百分点增益。

相关概念

binding-constraint-thesis — 约束瓶颈论
prompt-to-harness-evolution — 三阶段工程演进
agent-harness-engineering — 总体框架