Files
myWiki/concepts/representation-validity.md

40 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Representation Validity"
created: 2026-06-01
updated: 2026-06-01
type: concept
tags: [representation-geometry, steering, interpretability]
sources: [raw/papers/xu-why-steering-works-2026.md]
---
# Representation Validity表示有效性
## 定义
表示有效性指中间层激活被下游网络层**可靠解码**的程度。在激活流形框架中Xu et al., 2026有效性 $V_l(h)$ 在流形 $M_l$ 附近最高,随激活偏离流形而下降。
## 形式化
存在有效性函数 $V_l: \mathbb{R}^{d_l} \to [0, 1]$
- $V_l(h) \approx 1$h 靠近 $M_l$,下游解码稳定
- $V_l(h) \ll 1$h 远离 $M_l$,解码不可靠 → 输出崩坏
## 与 Steering 的关系
导向干预 $\tilde{h}_l(m) = h_l + m\Delta h$ 将激活沿一维方向平移:
- 当平移后的激活仍靠近流形 → 表示有效 → 定向行为调整成功
- 当平移过量 → 表示失效 → 输出不连贯、违反指令
## 与 Token-Level 困惑度的区别
有效性是**中间表示级别**的概念,不同于输出层的困惑度:
- 高困惑度但高有效性 → 可能是概念冲突(模型理解但不赞同)
- 低困惑度但低有效性 → 可能随机生成合理但不合上下文的内容
## 相关概念
- [[activation-manifold]] — 流形几何
- [[validity-decay]] — $D(m)$ 函数量化有效性衰减
- [[steering-dynamics]] — 有效性衰减如何驱动三阶段动态
- [[xu-why-steering-works]] — 源论文