20260617:目前有914 页

This commit is contained in:
2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions

View File

@@ -0,0 +1,39 @@
---
title: "Representation Validity"
created: 2026-06-01
updated: 2026-06-01
type: concept
tags: [representation-geometry, steering, interpretability]
sources: [raw/papers/xu-why-steering-works-2026.md]
---
# Representation Validity表示有效性
## 定义
表示有效性指中间层激活被下游网络层**可靠解码**的程度。在激活流形框架中Xu et al., 2026有效性 $V_l(h)$ 在流形 $M_l$ 附近最高,随激活偏离流形而下降。
## 形式化
存在有效性函数 $V_l: \mathbb{R}^{d_l} \to [0, 1]$
- $V_l(h) \approx 1$h 靠近 $M_l$,下游解码稳定
- $V_l(h) \ll 1$h 远离 $M_l$,解码不可靠 → 输出崩坏
## 与 Steering 的关系
导向干预 $\tilde{h}_l(m) = h_l + m\Delta h$ 将激活沿一维方向平移:
- 当平移后的激活仍靠近流形 → 表示有效 → 定向行为调整成功
- 当平移过量 → 表示失效 → 输出不连贯、违反指令
## 与 Token-Level 困惑度的区别
有效性是**中间表示级别**的概念,不同于输出层的困惑度:
- 高困惑度但高有效性 → 可能是概念冲突(模型理解但不赞同)
- 低困惑度但低有效性 → 可能随机生成合理但不合上下文的内容
## 相关概念
- [[activation-manifold]] — 流形几何
- [[validity-decay]] — $D(m)$ 函数量化有效性衰减
- [[steering-dynamics]] — 有效性衰减如何驱动三阶段动态
- [[xu-why-steering-works]] — 源论文