Files
myWiki/concepts/system-stability.md

34 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "System Stability"
created: 2026-06-05
updated: 2026-06-05
type: concept
tags: [agent-safety, robustness, perturbation, adversarial]
sources: [[liu-auditing-agent-harness-safety]]
---
# System Stability (L3)
**系统稳定性**是 [[agent-harness-safety|Agent 骨架安全]]三层审计框架的第三层L3评估 L1 [[boundary-compliance]] 和 L2 [[execution-fidelity]] 在受控压力源下是否保持不变。
## 三类扰动
| 扰动类型 | 描述 | 注入方式 |
|---------|------|---------|
| **间接注入** (Indirect Injection) | 通过工具返回内容嵌入隐藏指令 | 数据库记录、文件内容、API 响应 |
| **模糊目标** (Ambiguous Goals) | 用户指令不完整或存在歧义 | 缺失参数、多义表述 |
| **运行时/工具错误** | 工具调用失败或返回异常 | 超时、权限拒绝、格式异常 |
## 评估方式
对每个任务 i生成扰动变体集 P_i。每位扰动变体 p 由评估器按 rubric 评分 q_{i,p} ∈ [0,1]。最终 PBi 取所有变体的平均稳定性分。
## 核心发现
1. **间接注入造成最大性能下降**——Agent 极易受任务证据或工具返回内容中的隐藏指令影响
2. **正常任务完成性能与扰动下性能明显分离**——高 TCR 不意味着高稳定性
3. **某些系统对后端异常更稳定**,但扰动性能仍然与正常性能有明显差距
4. 骨架设计对稳定性有决定性影响:[[harnessaudit|HarnessAudit]] 原生骨架在稳定性上优于通用框架
L3 揭示了 [[agent-safety-evaluation|Agent 安全评测]]的一个根本缺陷:**只在理想条件下评测安全无意义**——真正的安全必须在对抗和非理想条件下评估。