Files
myWiki/papers/agent-harness-engineering-survey.md
2026-06-01 10:46:01 +08:00

70 lines
3.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Agent Harness Engineering: A Survey"
created: 2026-05-23
updated: 2026-05-23
type: paper
tags: [agent, infrastructure, harness, taxonomy, survey, production]
sources: [raw/papers/agent-harness-engineering-survey-2026.md]
confidence: high
---
# Agent Harness Engineering: A Survey
> **核心论点**LLM Agent 在生产环境中的可靠性瓶颈不在模型本身,而在包裹模型的**基础设施层——Agent Execution Harness**。
## 基本信息
- **作者**: Junjie Li, Xi Xiao, Yunbei Zhang, Chen Liu 等CMU × Yale × JHU × NEU × Tulane × UAB × OSU × Virginia Tech × Amazon
- **投稿**: TMLR (Transactions on Machine Learning Research), 2026
- **项目页**: Awesome-Agent-Harness
- **规模**: 51 页170+ 开源项目映射
## 三大贡献
### 1. 约束瓶颈论Binding-Constraint Thesis
Agent 的可靠性不取决于模型,而取决于 Harness 的工程质量。论文通过三阶段工程演进Prompt → Context → Harness、跨层综合分析三元悖论、能力-控制权衡、耦合问题)和开放问题议程来支撑这一论点。
详细讨论:[[binding-constraint-thesis]]
### 2. ETCLOVG 七层分类法
将 Agent Harness 拆分为七个独立架构层:
- **E**xecution Environment执行环境——沙箱、容器、浏览器环境
- **T**ool Interface工具接口——工具描述、发现、调用、MCP 协议
- **C**ontext Management上下文管理——短/中/长期记忆、上下文漂移
- **L**ifecycle/Orchestration生命周期编排——单 Agent 循环、多 Agent 协调
- **O**bservability可观测性——追踪、成本、可靠性信号
- **V**erification验证评估——任务评估、失败归因、回归反馈
- **G**overnance治理安全——权限、身份、审计、人机协同
详细讨论:[[etclovg-taxonomy]]
### 3. 生态系统映射
对 170+ 开源项目按 ETCLOVG 分类,揭示采用模式、覆盖缺口和新兴设计原则。
## 跨层综合Cross-Layer Synthesis
- **[[cost-quality-speed-trilemma]]**:成本、质量、速度三者不可兼得,需要在不同代理生命周期阶段做权衡
- **[[capability-control-tradeoff]]**:更强的 Harness 给 Agent 更多能力,但每次能力扩展都增大控制问题
- **[[harness-coupling-problem]]**Harness 各层高度耦合,局部优化可能破坏全局——应作为**控制系统**来测试
## 五大开放问题
1. [[hardening-execution-environments]] — 硬化与扩展执行环境
2. [[reliable-state-long-running-agents]] — 长时间运行 Agent 中的可靠状态维护
3. [[trace-native-evaluation]] — 从 Agent 踪迹中诊断失败
4. [[standard-agent-handoffs]] — Agent、工具、人类之间的标准化交接
5. [[adaptive-harness-simplification]] — 在模型能力提升时保持 Harness 有用性
## 三阶段工程演进
[[prompt-to-harness-evolution]] 描述了从 Prompt Engineering → Context Engineering → Harness Engineering 的三个阶段,每一阶段都在前一阶段基础上扩展,约束瓶颈逐步上移。
## 关键引用
- Bölük (2026a): "只改变了 harness15 个 LLM 的编程能力同时提升"
- Anthropic (2026a): "基础设施设置可以可测量地改变 benchmark 分数"
- OpenAI (2026): "Harness engineering 是保持人类注意力、仓库状态和 Agent 执行对齐的学科"