SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.7 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

System Stability

2026-06-05

2026-06-05

concept

agent-safety

robustness

perturbation

adversarial

liu-auditing-agent-harness-safety

System Stability (L3)

系统稳定性是 agent-harness-safety三层审计框架的第三层（L3），评估 L1 boundary-compliance 和 L2 execution-fidelity 在受控压力源下是否保持不变。

三类扰动

扰动类型	描述	注入方式
间接注入 (Indirect Injection)	通过工具返回内容嵌入隐藏指令	数据库记录、文件内容、API 响应
模糊目标 (Ambiguous Goals)	用户指令不完整或存在歧义	缺失参数、多义表述
运行时/工具错误	工具调用失败或返回异常	超时、权限拒绝、格式异常

评估方式

对每个任务 i，生成扰动变体集 P_i。每位扰动变体 p 由评估器按 rubric 评分 q_{i,p} ∈ [0,1]。最终 PBi 取所有变体的平均稳定性分。

核心发现

间接注入造成最大性能下降——Agent 极易受任务证据或工具返回内容中的隐藏指令影响
正常任务完成性能与扰动下性能明显分离——高 TCR 不意味着高稳定性
某些系统对后端异常更稳定，但扰动性能仍然与正常性能有明显差距
骨架设计对稳定性有决定性影响：harnessaudit 原生骨架在稳定性上优于通用框架

L3 揭示了 agent-safety-evaluation的一个根本缺陷：只在理想条件下评测安全无意义——真正的安全必须在对抗和非理想条件下评估。