40 lines
1.4 KiB
Markdown
40 lines
1.4 KiB
Markdown
---
|
||
title: "Representation Validity"
|
||
created: 2026-06-01
|
||
updated: 2026-06-01
|
||
type: concept
|
||
tags: [representation-geometry, steering, interpretability]
|
||
sources: [raw/papers/xu-why-steering-works-2026.md]
|
||
---
|
||
|
||
# Representation Validity(表示有效性)
|
||
|
||
## 定义
|
||
|
||
表示有效性指中间层激活被下游网络层**可靠解码**的程度。在激活流形框架中(Xu et al., 2026),有效性 $V_l(h)$ 在流形 $M_l$ 附近最高,随激活偏离流形而下降。
|
||
|
||
## 形式化
|
||
|
||
存在有效性函数 $V_l: \mathbb{R}^{d_l} \to [0, 1]$:
|
||
- $V_l(h) \approx 1$:h 靠近 $M_l$,下游解码稳定
|
||
- $V_l(h) \ll 1$:h 远离 $M_l$,解码不可靠 → 输出崩坏
|
||
|
||
## 与 Steering 的关系
|
||
|
||
导向干预 $\tilde{h}_l(m) = h_l + m\Delta h$ 将激活沿一维方向平移:
|
||
- 当平移后的激活仍靠近流形 → 表示有效 → 定向行为调整成功
|
||
- 当平移过量 → 表示失效 → 输出不连贯、违反指令
|
||
|
||
## 与 Token-Level 困惑度的区别
|
||
|
||
有效性是**中间表示级别**的概念,不同于输出层的困惑度:
|
||
- 高困惑度但高有效性 → 可能是概念冲突(模型理解但不赞同)
|
||
- 低困惑度但低有效性 → 可能随机生成合理但不合上下文的内容
|
||
|
||
## 相关概念
|
||
|
||
- [[activation-manifold]] — 流形几何
|
||
- [[validity-decay]] — $D(m)$ 函数量化有效性衰减
|
||
- [[steering-dynamics]] — 有效性衰减如何驱动三阶段动态
|
||
- [[xu-why-steering-works]] — 源论文
|