Files
myWiki/reviews/agent-harness-engineering-review-20260523.md
2026-06-01 10:46:01 +08:00

4.0 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Review: Agent Harness Engineering Survey 2026-05-23 2026-05-23 review
review
agent
harness
survey
raw/papers/agent-harness-engineering-survey-2026.md

📌 基本信息

  • 论文标题: Agent Harness Engineering: A Survey
  • 作者: Junjie Li, Xi Xiao, Yunbei Zhang, Chen Liu 等CMU × Yale × JHU × NEU × Tulane × UAB × OSU × Virginia Tech × Amazon
  • 投稿: TMLR 2026Under Review
  • 项目页: Awesome-Agent-Harness
  • 添加时间: 2026-05-23
  • 规模: 51 页, 170+ 开源项目映射

🎯 核心概念

  1. agent-harness-engineering — Agent 执行骨架工程:包裹 LLM 并进行长时间多步骤任务执行的七层基础设施控制平面
  2. etclovg-taxonomy — ETCLOVG 七层分类法Execution / Tooling / Context / Lifecycle / Observability / Verification / Governance将 O 和 G 提升为独立架构层
  3. binding-constraint-thesis — 约束瓶颈论:基础设施质量(而非模型能力)设定了 Agent 可靠性的天花板
  4. harness-coupling-problem — Harness 各层高度耦合,局部优化可能破坏全局——应作为控制系统来测试
  5. cost-quality-speed-trilemma — 成本、质量、速度三者不可兼得的三方张力
  6. capability-control-tradeoff — 每次 Harness 能力扩展都增大安全和控制问题
  7. prompt-to-harness-evolution — 三阶段工程演进Prompt Engineering → Context Engineering → Harness Engineering
  8. trace-native-evaluation — 以 Agent 踪迹而非最终分数为中心的评估范式
  9. practitioner-research-gap — 从业者-研究鸿沟Harness 工程价值已被实践但缺乏学术形式化
  10. three-engineering-phases — Prompt → Context → Harness 三阶段视野扩展演进
  11. context-drift — 上下文漂移U 形注意力 + Context Rot + 工具累积的三种退化
  12. agent-sandbox — 进程级/语言级/Wasm/浏览器四种执行隔离沙箱
  13. multi-agent-orchestration — 层级、团队、工作流、Fan-out、图组合五种编排模式

🔗 概念网络

📚 Wiki 集成

  • 新增页面: 30 个1 论文 + 29 概念)含 2026-05-30 补充的 8 个概念
  • 链接密度: 每概念页平均 ~5 个交叉引用
  • 论文页链接: 连接了全部 5 个开放问题 + 跨层综合 3 个核心概念 + 8 个补充概念
  • 总规模: 373 → 409 页(首次)+ → 563 页(补充集成 + 同期其他论文)

💡 关键洞察

  1. 从组件思维到系统思维: 这篇综述最有价值的贡献不是分类本身,而是跨层综合——Harness 耦合问题表明prompt、tool、memory、sandbox、verifier 和 monitor 不能独立调优,必须作为单一控制系统来测试。这对任何部署 Agent 的团队都有直接的操作意义。

  2. 从模型中心到基础设施中心: Bölük 的实验(仅改变 harness 格式15 个 LLM 同时提升)是"模型不重要论"的最强实证锚点。论文将此从轶事提升为系统性的约束瓶颈论,并提供了三个维度的证据链(演进、跨层综合、开放问题),使该论点从一个直觉变成一个可操作的工程框架。