62 lines
3.5 KiB
Markdown
62 lines
3.5 KiB
Markdown
---
|
||
title: "Adapting the Interface, Not the Model: Runtime Harness Adaptation for Deterministic LLM Agents"
|
||
created: 2026-06-11
|
||
updated: 2026-06-11
|
||
type: paper
|
||
tags: [agent, harness, runtime-adaptation, deterministic, cross-model]
|
||
sources: [raw/papers/xu-life-harness-runtime-adaptation-2026.md]
|
||
confidence: high
|
||
---
|
||
|
||
# Life-Harness:适配接口而非模型
|
||
|
||
> Xu, Wen, Li (Peking University, 2026). arXiv:2605.22166 [cs.AI].
|
||
> 不更新模型权重,而是进化 Runtime Harness(运行时骨架)——在模型-环境接口层进行生命周期感知的适配。
|
||
|
||
## 核心问题
|
||
|
||
LLM Agent 的行为由两部分决定:模型本身 **+** 包裹模型的 Runtime Harness(观察传递、工具调用、动作执行、反馈解释、轨迹控制)。现有方法主要改进模型参数(SFT/RL/Distill),但在**确定性、规则驱动的领域**中,大量失败源于模型-环境**接口层的不匹配**(工具契约误解、不可执行动作、退化轨迹)——而非模型推理能力不足。
|
||
|
||
核心问题:**能否将训练轨迹中反复出现的接口失败模式,转化为固定的 Runtime 接口干预,在不更新模型权重的前提下提升 Agent 表现?**
|
||
|
||
## 方法:Life-Harness 生命周期四层架构
|
||
|
||
Life-Harness 将 Agent 交互生命周期分为四个阶段,每层负责一类特定干预:
|
||
|
||
### ❶ [[environment-contract-layer|环境契约层]](交互前)
|
||
在模型开始交互前,校准并增强环境可见的契约 C′:补充工具使用规则、策略约束、常见陷阱提示。
|
||
|
||
### ❷ [[procedural-skill-layer|程序技能层]](任务条件化时)
|
||
从训练轨迹中构建技能记忆库 S,基于当前任务描述 BM25 检索相关技能,注入到 system prompt 中提供非参数指导。
|
||
|
||
### ❸ [[action-realization-layer|动作实现层]](动作生成后、执行前)
|
||
基于确定性的环境约束(tool schema、合法动作集、参数要求),对模型输出进行**可执行性验证和规范化**,阻断确定会失败的动作。
|
||
|
||
### ❹ [[trajectory-regulation-layer|轨迹调控层]](执行后)
|
||
监控执行后轨迹,检测**重复、停滞、无效重试、预算耗尽**等退化模式,触发恢复干预。
|
||
|
||
四层在不同阶段协同,模型权重冻结、评估环境不变,仅通过接口层适配实现改进。
|
||
|
||
## 实验亮点
|
||
|
||
- **7 个环境 × 18 个模型**:τ-bench、τ²-bench、AgentBench(Airline/Retail/Telecom/ALFWorld/WebShop/OS/DBBench)
|
||
- **116/126 组设置提升**,平均相对增益 **88.5%**
|
||
- **跨模型迁移**:仅在 Qwen3-4B-Instruct 上训练的 harness,直接复用于另外 17 个模型
|
||
- **互补于模型训练**:使 Qwen2.5-32B-Instruct 超越其工具微调衍生版 xLAM2-32b-fc-r
|
||
|
||
## 失败诊断分类
|
||
|
||
- **动作实现失败**(~23%):意图合理但格式不可执行
|
||
- **环境契约不匹配**(~33%):语法正确但违反调用协议
|
||
- **轨迹退化**(~17%):单步有效但整体陷入重复/停滞
|
||
- **一般推理失败**(~27%):推理或决策本身错误
|
||
|
||
## 关键洞察
|
||
|
||
这一定位了 [[runtime-interface-adaptation|运行时接口适配]] 作为 [[agent-harness-engineering|模型中心训练]]的互补范式:在确定性领域中,大量"Agent 失败"本质上是**接口工程问题**,而非模型能力问题。
|
||
|
||
## 参考
|
||
- [原始论文存档](raw/papers/xu-life-harness-runtime-adaptation-2026.md)
|
||
- 代码: https://github.com/Tianshi-Xu/Life-Harness
|
||
- 相关工作: [[agent-harness-engineering|Agent Harness Engineering]]、[[agent-harness-mini|Mini Agent Harness]]
|