Files
myWiki/reviews/agent-harness-engineering-review-20260523.md
2026-06-01 10:46:01 +08:00

55 lines
4.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Review: Agent Harness Engineering Survey"
created: 2026-05-23
updated: 2026-05-23
type: review
tags: [review, agent, harness, survey]
sources: [raw/papers/agent-harness-engineering-survey-2026.md]
---
# 📌 基本信息
- **论文标题**: Agent Harness Engineering: A Survey
- **作者**: Junjie Li, Xi Xiao, Yunbei Zhang, Chen Liu 等CMU × Yale × JHU × NEU × Tulane × UAB × OSU × Virginia Tech × Amazon
- **投稿**: TMLR 2026Under Review
- **项目页**: Awesome-Agent-Harness
- **添加时间**: 2026-05-23
- **规模**: 51 页, 170+ 开源项目映射
# 🎯 核心概念
1. **[[agent-harness-engineering]]** — Agent 执行骨架工程:包裹 LLM 并进行长时间多步骤任务执行的七层基础设施控制平面
2. **[[etclovg-taxonomy]]** — ETCLOVG 七层分类法Execution / Tooling / Context / Lifecycle / Observability / Verification / Governance将 O 和 G 提升为独立架构层
3. **[[binding-constraint-thesis]]** — 约束瓶颈论:基础设施质量(而非模型能力)设定了 Agent 可靠性的天花板
4. **[[harness-coupling-problem]]** — Harness 各层高度耦合,局部优化可能破坏全局——应作为**控制系统**来测试
5. **[[cost-quality-speed-trilemma]]** — 成本、质量、速度三者不可兼得的三方张力
6. **[[capability-control-tradeoff]]** — 每次 Harness 能力扩展都增大安全和控制问题
7. **[[prompt-to-harness-evolution]]** — 三阶段工程演进Prompt Engineering → Context Engineering → Harness Engineering
8. **[[trace-native-evaluation]]** — 以 Agent 踪迹而非最终分数为中心的评估范式
9. **[[practitioner-research-gap]]** — 从业者-研究鸿沟Harness 工程价值已被实践但缺乏学术形式化
10. **[[three-engineering-phases]]** — Prompt → Context → Harness 三阶段视野扩展演进
11. **[[context-drift]]** — 上下文漂移U 形注意力 + Context Rot + 工具累积的三种退化
12. **[[agent-sandbox]]** — 进程级/语言级/Wasm/浏览器四种执行隔离沙箱
13. **[[multi-agent-orchestration]]** — 层级、团队、工作流、Fan-out、图组合五种编排模式
# 🔗 概念网络
- **核心连接**: [[binding-constraint-thesis]] ↔ [[harness-coupling-problem]] ↔ [[cost-quality-speed-trilemma]]
- **七层体系**: [[execution-environment]] → [[tool-interface]] → [[context-management]] → [[lifecycle-orchestration]] → [[agent-observability]] → [[agent-verification]] → [[agent-governance]]
- **开放问题链**: [[hardening-execution-environments]] → [[reliable-state-long-running-agents]] → [[trace-native-evaluation]] → [[standard-agent-handoffs]] → [[adaptive-harness-simplification]]
- **扩展网络**: 连接了 29 个概念页,通过 O/V/G 独立层和 [[practitioner-research-gap]]、[[agent-frameworks-to-platforms]] 深入交叉
- **修复断链**: (补充集成)修复了 review 中 3 个中文 wikilink 错误
# 📚 Wiki 集成
- **新增页面**: 30 个1 论文 + 29 概念)含 2026-05-30 补充的 8 个概念
- **链接密度**: 每概念页平均 ~5 个交叉引用
- **论文页链接**: 连接了全部 5 个开放问题 + 跨层综合 3 个核心概念 + 8 个补充概念
- **总规模**: 373 → 409 页(首次)+ → 563 页(补充集成 + 同期其他论文)
# 💡 关键洞察
1. **从组件思维到系统思维**: 这篇综述最有价值的贡献不是分类本身,而是**跨层综合**——Harness 耦合问题表明prompt、tool、memory、sandbox、verifier 和 monitor 不能独立调优,必须作为单一控制系统来测试。这对任何部署 Agent 的团队都有直接的操作意义。
2. **从模型中心到基础设施中心**: Bölük 的实验(仅改变 harness 格式15 个 LLM 同时提升)是"模型不重要论"的最强实证锚点。论文将此从轶事提升为系统性的约束瓶颈论,并提供了三个维度的证据链(演进、跨层综合、开放问题),使该论点从一个直觉变成一个可操作的工程框架。