--- title: "Representation Validity" created: 2026-06-01 updated: 2026-06-01 type: concept tags: [representation-geometry, steering, interpretability] sources: [raw/papers/xu-why-steering-works-2026.md] --- # Representation Validity(表示有效性) ## 定义 表示有效性指中间层激活被下游网络层**可靠解码**的程度。在激活流形框架中(Xu et al., 2026),有效性 $V_l(h)$ 在流形 $M_l$ 附近最高,随激活偏离流形而下降。 ## 形式化 存在有效性函数 $V_l: \mathbb{R}^{d_l} \to [0, 1]$: - $V_l(h) \approx 1$:h 靠近 $M_l$,下游解码稳定 - $V_l(h) \ll 1$:h 远离 $M_l$,解码不可靠 → 输出崩坏 ## 与 Steering 的关系 导向干预 $\tilde{h}_l(m) = h_l + m\Delta h$ 将激活沿一维方向平移: - 当平移后的激活仍靠近流形 → 表示有效 → 定向行为调整成功 - 当平移过量 → 表示失效 → 输出不连贯、违反指令 ## 与 Token-Level 困惑度的区别 有效性是**中间表示级别**的概念,不同于输出层的困惑度: - 高困惑度但高有效性 → 可能是概念冲突(模型理解但不赞同) - 低困惑度但低有效性 → 可能随机生成合理但不合上下文的内容 ## 相关概念 - [[activation-manifold]] — 流形几何 - [[validity-decay]] — $D(m)$ 函数量化有效性衰减 - [[steering-dynamics]] — 有效性衰减如何驱动三阶段动态 - [[xu-why-steering-works]] — 源论文