Files
myWiki/papers/agent-harness-engineering-survey.md
2026-06-01 10:46:01 +08:00

3.3 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
Agent Harness Engineering: A Survey 2026-05-23 2026-05-23 paper
agent
infrastructure
harness
taxonomy
survey
production
raw/papers/agent-harness-engineering-survey-2026.md
high

Agent Harness Engineering: A Survey

核心论点LLM Agent 在生产环境中的可靠性瓶颈不在模型本身,而在包裹模型的基础设施层——Agent Execution Harness

基本信息

  • 作者: Junjie Li, Xi Xiao, Yunbei Zhang, Chen Liu 等CMU × Yale × JHU × NEU × Tulane × UAB × OSU × Virginia Tech × Amazon
  • 投稿: TMLR (Transactions on Machine Learning Research), 2026
  • 项目页: Awesome-Agent-Harness
  • 规模: 51 页170+ 开源项目映射

三大贡献

1. 约束瓶颈论Binding-Constraint Thesis

Agent 的可靠性不取决于模型,而取决于 Harness 的工程质量。论文通过三阶段工程演进Prompt → Context → Harness、跨层综合分析三元悖论、能力-控制权衡、耦合问题)和开放问题议程来支撑这一论点。

详细讨论:binding-constraint-thesis

2. ETCLOVG 七层分类法

将 Agent Harness 拆分为七个独立架构层:

  • Execution Environment执行环境——沙箱、容器、浏览器环境
  • Tool Interface工具接口——工具描述、发现、调用、MCP 协议
  • Context Management上下文管理——短/中/长期记忆、上下文漂移
  • Lifecycle/Orchestration生命周期编排——单 Agent 循环、多 Agent 协调
  • Observability可观测性——追踪、成本、可靠性信号
  • Verification验证评估——任务评估、失败归因、回归反馈
  • Governance治理安全——权限、身份、审计、人机协同

详细讨论:etclovg-taxonomy

3. 生态系统映射

对 170+ 开源项目按 ETCLOVG 分类,揭示采用模式、覆盖缺口和新兴设计原则。

跨层综合Cross-Layer Synthesis

五大开放问题

  1. hardening-execution-environments — 硬化与扩展执行环境
  2. reliable-state-long-running-agents — 长时间运行 Agent 中的可靠状态维护
  3. trace-native-evaluation — 从 Agent 踪迹中诊断失败
  4. standard-agent-handoffs — Agent、工具、人类之间的标准化交接
  5. adaptive-harness-simplification — 在模型能力提升时保持 Harness 有用性

三阶段工程演进

prompt-to-harness-evolution 描述了从 Prompt Engineering → Context Engineering → Harness Engineering 的三个阶段,每一阶段都在前一阶段基础上扩展,约束瓶颈逐步上移。

关键引用

  • Bölük (2026a): "只改变了 harness15 个 LLM 的编程能力同时提升"
  • Anthropic (2026a): "基础设施设置可以可测量地改变 benchmark 分数"
  • OpenAI (2026): "Harness engineering 是保持人类注意力、仓库状态和 Agent 执行对齐的学科"