Files
myWiki/concepts/practitioner-research-gap.md
2026-06-01 10:46:01 +08:00

1.6 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
Practitioner-Research Gap从业者-研究鸿沟) 2026-05-30 2026-05-30 concept
agent
production
research
gap
agent-harness-engineering-survey
high

Practitioner-Research Gap

从业者知道 Harness 基础设施很重要,但缺乏正式词汇来描述"为什么"——这是《Agent Harness Engineering: A Survey》试图弥合的核心鸿沟。

鸿沟的两侧

从业者侧(已知但未形式化)

  • OpenAIHarness engineering 定义为"设计环境、约束、文档和反馈循环"
  • Anthropic有效 Agent 应使用简单可检查架构、为 Agent 而非人类设计工具接口
  • 从业者在实践中大量投资 Harness但缺少统一的理论框架

研究者侧(已研究但未整合)

  • 学术界分别研究了记忆、工具使用、规划、安全等组件
  • 但缺少对这些组件如何整合成可靠运行系统的系统性研究
  • 研究社区仍以模型为分析单元

三个 Harmess-Only 证据

论文用三个实证结果证明了 Harness 的独立价值(模型固定,只改变 Harness

  1. Bölük (2026a):只修改 tool harness编程基准增益达 10×
  2. Trivedy (2026):系统 prompt 重构 + 中间件注入Terminal-Bench 2.0 从 52.8% → 66.5%
  3. Meta-Harness (Lee et al., 2026):自动化 harness 优化Terminal-Bench-2 达 76.4%

这三项结果均超过同期"模型改进"的典型 2-4 个百分点增益。

相关概念