SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.4 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Representation Validity

2026-06-01

2026-06-01

concept

representation-geometry

steering

interpretability

raw/papers/xu-why-steering-works-2026.md

Representation Validity（表示有效性）

定义

表示有效性指中间层激活被下游网络层可靠解码的程度。在激活流形框架中（Xu et al., 2026），有效性 V_l(h) 在流形 M_l 附近最高，随激活偏离流形而下降。

形式化

存在有效性函数 $V_l: \mathbb{R}^{d_l} \to [0, 1]$：

$V_l(h) \approx 1$：h 靠近 $M_l$，下游解码稳定
$V_l(h) \ll 1$：h 远离 $M_l$，解码不可靠 → 输出崩坏

与 Steering 的关系

导向干预 \tilde{h}_l(m) = h_l + m\Delta h 将激活沿一维方向平移：

当平移后的激活仍靠近流形 → 表示有效 → 定向行为调整成功
当平移过量 → 表示失效 → 输出不连贯、违反指令

与 Token-Level 困惑度的区别

有效性是中间表示级别的概念，不同于输出层的困惑度：

高困惑度但高有效性 → 可能是概念冲突（模型理解但不赞同）
低困惑度但低有效性 → 可能随机生成合理但不合上下文的内容

相关概念

activation-manifold — 流形几何
validity-decay — D(m) 函数量化有效性衰减
steering-dynamics — 有效性衰减如何驱动三阶段动态
xu-why-steering-works — 源论文