2.8 KiB
2.8 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| Life-Harness — Runtime Harness Adaptation 论文 Review | 2026-06-11 | 2026-06-11 | review |
|
|
Life-Harness Review
📌 基本信息
- 论文: "Adapting the Interface, Not the Model: Runtime Harness Adaptation for Deterministic LLM Agents"
- 作者: Tianshi Xu†, Huifeng Wen†, Meng Li (Peking University)
- 领域: Agent Systems / Runtime Engineering (cs.AI)
- arXiv: 2605.22166v2, 2026-05-21
- 代码: github.com/Tianshi-Xu/Life-Harness
- Wiki 集成时间: 2026-06-11
🎯 核心概念
- runtime-harness-adaptation — 不更新模型权重,而是进化运行时接口层:将训练轨迹中的反复失败转化为结构化的接口干预
- lifecycle-aware-harness — 将 Agent 交互分解为四个生命周期阶段(契约→技能→实现→调控),每层部署专门干预
- runtime-interface-adaptation — 与 Parameter Adaptation 互补的 Agent 改进范式:适配接口而非参数
- cross-model-harness-transfer — 在 Qwen3-4B 上训练的 Harness 直接复用给其他 17 个模型,证明环境侧结构的可迁移性
🔗 概念网络
- 核心连接: runtime-harness-adaptation ↔ lifecycle-aware-harness ↔ 四层架构(contract → skill → realization → regulation)
- 已有网络连接: 与 agent-harness-engineering、agent-harness-mini 形成 broader harness 谱系
- 新增连接: 10 个新概念全部互链,无断链
- 跨模型概念: harness-evolution → cross-model-harness-transfer 形成"进化→复用"闭环
📊 实验亮点
- 7 环境 × 18 模型: τ-bench / τ²-bench / AgentBench
- 116/126 提升 (92.1% 组设置提升)
- 平均相对增益 88.5%
- 跨模型迁移: Qwen3-4B → 17 个模型,无需重新训练
- 互补性: Qwen2.5-32B + Harness 超越其工具微调衍生版 xLAM2
📚 Wiki 集成
- 新增页面:11 个(1 论文 + 10 概念)
- 链接密度:核心概念平均 4.2 个 outbound 链接
- 网络完整:100% 无断链
- 总规模:750 → 761 页
💡 关键洞察
-
接口工程 > 模型训练(在确定性领域):当大量 Agent 失败源于工具契约误解、格式错误、轨迹退化时,最有效的改进路径是修复接口层而非提升模型推理能力。这不仅仅是成本优化——是对问题根源的正确归因。
-
环境侧结构是跨模型通货:Harness 的跨模型可迁移性揭示了确定性 Agent 环境中存在一套与模型无关的"规则接口"——将其从隐性期望转为显性约束,是 Agent 系统工程的杠杆点。