55 lines
2.8 KiB
Markdown
55 lines
2.8 KiB
Markdown
---
|
||
title: "Life-Harness — Runtime Harness Adaptation 论文 Review"
|
||
created: 2026-06-11
|
||
updated: 2026-06-11
|
||
type: review
|
||
tags: [review, agent, harness, runtime-adaptation]
|
||
sources: [raw/papers/xu-life-harness-runtime-adaptation-2026.md]
|
||
---
|
||
|
||
# Life-Harness Review
|
||
|
||
## 📌 基本信息
|
||
|
||
- **论文**: "Adapting the Interface, Not the Model: Runtime Harness Adaptation for Deterministic LLM Agents"
|
||
- **作者**: Tianshi Xu†, Huifeng Wen†, Meng Li (Peking University)
|
||
- **领域**: Agent Systems / Runtime Engineering (cs.AI)
|
||
- **arXiv**: 2605.22166v2, 2026-05-21
|
||
- **代码**: github.com/Tianshi-Xu/Life-Harness
|
||
- **Wiki 集成时间**: 2026-06-11
|
||
|
||
## 🎯 核心概念
|
||
|
||
1. **[[runtime-harness-adaptation|Runtime Harness Adaptation]]** — 不更新模型权重,而是进化运行时接口层:将训练轨迹中的反复失败转化为结构化的接口干预
|
||
2. **[[lifecycle-aware-harness|Lifecycle-Aware Harness]]** — 将 Agent 交互分解为四个生命周期阶段(契约→技能→实现→调控),每层部署专门干预
|
||
3. **[[runtime-interface-adaptation|Runtime Interface Adaptation]]** — 与 Parameter Adaptation 互补的 Agent 改进范式:适配接口而非参数
|
||
4. **[[cross-model-harness-transfer|Cross-Model Harness Transfer]]** — 在 Qwen3-4B 上训练的 Harness 直接复用给其他 17 个模型,证明环境侧结构的可迁移性
|
||
|
||
## 🔗 概念网络
|
||
|
||
- **核心连接**: runtime-harness-adaptation ↔ lifecycle-aware-harness ↔ 四层架构(contract → skill → realization → regulation)
|
||
- **已有网络连接**: 与 [[agent-harness-engineering]]、[[agent-harness-mini]] 形成 broader harness 谱系
|
||
- **新增连接**: 10 个新概念全部互链,无断链
|
||
- **跨模型概念**: harness-evolution → cross-model-harness-transfer 形成"进化→复用"闭环
|
||
|
||
## 📊 实验亮点
|
||
|
||
- **7 环境 × 18 模型**: τ-bench / τ²-bench / AgentBench
|
||
- **116/126 提升** (92.1% 组设置提升)
|
||
- **平均相对增益 88.5%**
|
||
- **跨模型迁移**: Qwen3-4B → 17 个模型,无需重新训练
|
||
- **互补性**: Qwen2.5-32B + Harness 超越其工具微调衍生版 xLAM2
|
||
|
||
## 📚 Wiki 集成
|
||
|
||
- 新增页面:**11 个**(1 论文 + 10 概念)
|
||
- 链接密度:核心概念平均 4.2 个 outbound 链接
|
||
- 网络完整:**100% 无断链**
|
||
- 总规模:750 → **761 页**
|
||
|
||
## 💡 关键洞察
|
||
|
||
1. **接口工程 > 模型训练**(在确定性领域):当大量 Agent 失败源于工具契约误解、格式错误、轨迹退化时,最有效的改进路径是修复接口层而非提升模型推理能力。这不仅仅是成本优化——是对问题根源的正确归因。
|
||
|
||
2. **环境侧结构是跨模型通货**:Harness 的跨模型可迁移性揭示了确定性 Agent 环境中存在一套与模型无关的"规则接口"——将其从隐性期望转为显性约束,是 Agent 系统工程的杠杆点。
|