Files
myWiki/concepts/representation-validity.md

1.4 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Representation Validity 2026-06-01 2026-06-01 concept
representation-geometry
steering
interpretability
raw/papers/xu-why-steering-works-2026.md

Representation Validity表示有效性

定义

表示有效性指中间层激活被下游网络层可靠解码的程度。在激活流形框架中Xu et al., 2026有效性 V_l(h) 在流形 M_l 附近最高,随激活偏离流形而下降。

形式化

存在有效性函数 $V_l: \mathbb{R}^{d_l} \to [0, 1]$

  • $V_l(h) \approx 1$h 靠近 $M_l$,下游解码稳定
  • $V_l(h) \ll 1$h 远离 $M_l$,解码不可靠 → 输出崩坏

与 Steering 的关系

导向干预 \tilde{h}_l(m) = h_l + m\Delta h 将激活沿一维方向平移:

  • 当平移后的激活仍靠近流形 → 表示有效 → 定向行为调整成功
  • 当平移过量 → 表示失效 → 输出不连贯、违反指令

与 Token-Level 困惑度的区别

有效性是中间表示级别的概念,不同于输出层的困惑度:

  • 高困惑度但高有效性 → 可能是概念冲突(模型理解但不赞同)
  • 低困惑度但低有效性 → 可能随机生成合理但不合上下文的内容

相关概念