📌 基本信息

论文标题: Agent Harness Engineering: A Survey
作者: Junjie Li, Xi Xiao, Yunbei Zhang, Chen Liu 等（CMU × Yale × JHU × NEU × Tulane × UAB × OSU × Virginia Tech × Amazon）
投稿: TMLR 2026（Under Review）
项目页: Awesome-Agent-Harness
添加时间: 2026-05-23
规模: 51 页, 170+ 开源项目映射

🎯 核心概念

agent-harness-engineering — Agent 执行骨架工程：包裹 LLM 并进行长时间多步骤任务执行的七层基础设施控制平面
etclovg-taxonomy — ETCLOVG 七层分类法：Execution / Tooling / Context / Lifecycle / Observability / Verification / Governance，将 O 和 G 提升为独立架构层
binding-constraint-thesis — 约束瓶颈论：基础设施质量（而非模型能力）设定了 Agent 可靠性的天花板
harness-coupling-problem — Harness 各层高度耦合，局部优化可能破坏全局——应作为控制系统来测试
cost-quality-speed-trilemma — 成本、质量、速度三者不可兼得的三方张力
capability-control-tradeoff — 每次 Harness 能力扩展都增大安全和控制问题
prompt-to-harness-evolution — 三阶段工程演进：Prompt Engineering → Context Engineering → Harness Engineering
trace-native-evaluation — 以 Agent 踪迹而非最终分数为中心的评估范式
practitioner-research-gap — 从业者-研究鸿沟：Harness 工程价值已被实践但缺乏学术形式化
three-engineering-phases — Prompt → Context → Harness 三阶段视野扩展演进
context-drift — 上下文漂移：U 形注意力 + Context Rot + 工具累积的三种退化
agent-sandbox — 进程级/语言级/Wasm/浏览器四种执行隔离沙箱
multi-agent-orchestration — 层级、团队、工作流、Fan-out、图组合五种编排模式

核心连接: binding-constraint-thesis ↔ harness-coupling-problem ↔ cost-quality-speed-trilemma
七层体系: execution-environment → tool-interface → context-management → lifecycle-orchestration → agent-observability → agent-verification → agent-governance
开放问题链: hardening-execution-environments → reliable-state-long-running-agents → trace-native-evaluation → standard-agent-handoffs → adaptive-harness-simplification
扩展网络: 连接了 29 个概念页，通过 O/V/G 独立层和 practitioner-research-gap、agent-frameworks-to-platforms 深入交叉
修复断链: （补充集成）修复了 review 中 3 个中文 wikilink 错误

从组件思维到系统思维: 这篇综述最有价值的贡献不是分类本身，而是跨层综合——Harness 耦合问题表明，prompt、tool、memory、sandbox、verifier 和 monitor 不能独立调优，必须作为单一控制系统来测试。这对任何部署 Agent 的团队都有直接的操作意义。
从模型中心到基础设施中心: Bölük 的实验（仅改变 harness 格式，15 个 LLM 同时提升）是"模型不重要论"的最强实证锚点。论文将此从轶事提升为系统性的约束瓶颈论，并提供了三个维度的证据链（演进、跨层综合、开放问题），使该论点从一个直觉变成一个可操作的工程框架。