20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/reviews/agent-harness-engineering-review-20260523.md
+++ b/reviews/agent-harness-engineering-review-20260523.md
@@ -0,0 +1,54 @@
+---
+title: "Review: Agent Harness Engineering Survey"
+created: 2026-05-23
+updated: 2026-05-23
+type: review
+tags: [review, agent, harness, survey]
+sources: [raw/papers/agent-harness-engineering-survey-2026.md]
+---
+
+# 📌 基本信息
+
+- **论文标题**: Agent Harness Engineering: A Survey
+- **作者**: Junjie Li, Xi Xiao, Yunbei Zhang, Chen Liu 等（CMU × Yale × JHU × NEU × Tulane × UAB × OSU × Virginia Tech × Amazon）
+- **投稿**: TMLR 2026（Under Review）
+- **项目页**: Awesome-Agent-Harness
+- **添加时间**: 2026-05-23
+- **规模**: 51 页, 170+ 开源项目映射
+
+# 🎯 核心概念
+
+1. **[[agent-harness-engineering]]** — Agent 执行骨架工程：包裹 LLM 并进行长时间多步骤任务执行的七层基础设施控制平面
+2. **[[etclovg-taxonomy]]** — ETCLOVG 七层分类法：Execution / Tooling / Context / Lifecycle / Observability / Verification / Governance，将 O 和 G 提升为独立架构层
+3. **[[binding-constraint-thesis]]** — 约束瓶颈论：基础设施质量（而非模型能力）设定了 Agent 可靠性的天花板
+4. **[[harness-coupling-problem]]** — Harness 各层高度耦合，局部优化可能破坏全局——应作为**控制系统**来测试
+5. **[[cost-quality-speed-trilemma]]** — 成本、质量、速度三者不可兼得的三方张力
+6. **[[capability-control-tradeoff]]** — 每次 Harness 能力扩展都增大安全和控制问题
+7. **[[prompt-to-harness-evolution]]** — 三阶段工程演进：Prompt Engineering → Context Engineering → Harness Engineering
+8. **[[trace-native-evaluation]]** — 以 Agent 踪迹而非最终分数为中心的评估范式
+9. **[[practitioner-research-gap]]** — 从业者-研究鸿沟：Harness 工程价值已被实践但缺乏学术形式化
+10. **[[three-engineering-phases]]** — Prompt → Context → Harness 三阶段视野扩展演进
+11. **[[context-drift]]** — 上下文漂移：U 形注意力 + Context Rot + 工具累积的三种退化
+12. **[[agent-sandbox]]** — 进程级/语言级/Wasm/浏览器四种执行隔离沙箱
+13. **[[multi-agent-orchestration]]** — 层级、团队、工作流、Fan-out、图组合五种编排模式
+
+# 🔗 概念网络
+
+- **核心连接**: [[binding-constraint-thesis]] ↔ [[harness-coupling-problem]] ↔ [[cost-quality-speed-trilemma]]
+- **七层体系**: [[execution-environment]] → [[tool-interface]] → [[context-management]] → [[lifecycle-orchestration]] → [[agent-observability]] → [[agent-verification]] → [[agent-governance]]
+- **开放问题链**: [[hardening-execution-environments]] → [[reliable-state-long-running-agents]] → [[trace-native-evaluation]] → [[standard-agent-handoffs]] → [[adaptive-harness-simplification]]
+- **扩展网络**: 连接了 29 个概念页，通过 O/V/G 独立层和 [[practitioner-research-gap]]、[[agent-frameworks-to-platforms]] 深入交叉
+- **修复断链**: （补充集成）修复了 review 中 3 个中文 wikilink 错误
+
+# 📚 Wiki 集成
+
+- **新增页面**: 30 个（1 论文 + 29 概念）含 2026-05-30 补充的 8 个概念
+- **链接密度**: 每概念页平均 ~5 个交叉引用
+- **论文页链接**: 连接了全部 5 个开放问题 + 跨层综合 3 个核心概念 + 8 个补充概念
+- **总规模**: 373 → 409 页（首次）+ → 563 页（补充集成 + 同期其他论文）
+
+# 💡 关键洞察
+
+1. **从组件思维到系统思维**: 这篇综述最有价值的贡献不是分类本身，而是**跨层综合**——Harness 耦合问题表明，prompt、tool、memory、sandbox、verifier 和 monitor 不能独立调优，必须作为单一控制系统来测试。这对任何部署 Agent 的团队都有直接的操作意义。
+
+2. **从模型中心到基础设施中心**: Bölük 的实验（仅改变 harness 格式，15 个 LLM 同时提升）是"模型不重要论"的最强实证锚点。论文将此从轶事提升为系统性的约束瓶颈论，并提供了三个维度的证据链（演进、跨层综合、开放问题），使该论点从一个直觉变成一个可操作的工程框架。