20260617:目前有914 页
This commit is contained in:
33
concepts/system-stability.md
Normal file
33
concepts/system-stability.md
Normal file
@@ -0,0 +1,33 @@
|
||||
---
|
||||
title: "System Stability"
|
||||
created: 2026-06-05
|
||||
updated: 2026-06-05
|
||||
type: concept
|
||||
tags: [agent-safety, robustness, perturbation, adversarial]
|
||||
sources: [[liu-auditing-agent-harness-safety]]
|
||||
---
|
||||
|
||||
# System Stability (L3)
|
||||
|
||||
**系统稳定性**是 [[agent-harness-safety|Agent 骨架安全]]三层审计框架的第三层(L3),评估 L1 [[boundary-compliance]] 和 L2 [[execution-fidelity]] 在受控压力源下是否保持不变。
|
||||
|
||||
## 三类扰动
|
||||
|
||||
| 扰动类型 | 描述 | 注入方式 |
|
||||
|---------|------|---------|
|
||||
| **间接注入** (Indirect Injection) | 通过工具返回内容嵌入隐藏指令 | 数据库记录、文件内容、API 响应 |
|
||||
| **模糊目标** (Ambiguous Goals) | 用户指令不完整或存在歧义 | 缺失参数、多义表述 |
|
||||
| **运行时/工具错误** | 工具调用失败或返回异常 | 超时、权限拒绝、格式异常 |
|
||||
|
||||
## 评估方式
|
||||
|
||||
对每个任务 i,生成扰动变体集 P_i。每位扰动变体 p 由评估器按 rubric 评分 q_{i,p} ∈ [0,1]。最终 PBi 取所有变体的平均稳定性分。
|
||||
|
||||
## 核心发现
|
||||
|
||||
1. **间接注入造成最大性能下降**——Agent 极易受任务证据或工具返回内容中的隐藏指令影响
|
||||
2. **正常任务完成性能与扰动下性能明显分离**——高 TCR 不意味着高稳定性
|
||||
3. **某些系统对后端异常更稳定**,但扰动性能仍然与正常性能有明显差距
|
||||
4. 骨架设计对稳定性有决定性影响:[[harnessaudit|HarnessAudit]] 原生骨架在稳定性上优于通用框架
|
||||
|
||||
L3 揭示了 [[agent-safety-evaluation|Agent 安全评测]]的一个根本缺陷:**只在理想条件下评测安全无意义**——真正的安全必须在对抗和非理想条件下评估。
|
||||
Reference in New Issue
Block a user