Files
myWiki/concepts/validity-decay.md

1.8 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Validity Decay 2026-06-01 2026-06-01 concept
steering
representation-geometry
controllability
raw/papers/xu-why-steering-works-2026.md

Validity Decay有效性衰减

定义

有效性衰减 D(m) 是 Xu et al. (2026) 提出的量化函数,描述当导向干预增大时,激活的可解码质量如何退化。

核心假设Assumption 4.2

存在一个单调非增的有效性函数 $V_l: \mathbb{R}^{d_l} \to [0, 1]$,捕捉剩余网络 F_{l \to L} 能否稳定解码给定激活。V_l 随激活到流形 M_l 的距离增大而下降。

导向干预下的平均有效性:

D(m) = \mathbb{E}_{x \sim X_{\text{stable}}} \left[ V_l(\tilde{h}_l(m)) \right]

RQ 衰减形式

D(m) = \begin{cases} \left[ 1 + \frac{(m-m_+)^2}{L_+} \right]^{-p_+} & m \geq 0 \\ \left[ 1 + \frac{(m-m_-)^2}{L_-} \right]^{-p_-} & m < 0 \end{cases}

参数含义

  • $m_\pm$:与流形的交点(最优有效性位置)
  • $L_\pm$:衰减尺度(与流形几何有关)
  • $p_\pm$:尾部衰减速率

在 PreferenceUtility 分析中的角色

维度 公式 衰减的作用
Preference \log\frac{P(p_p)}{1-P(p_p)} = (\alpha_p m + \beta_p) D_p(m) + b_p 投影增益 × 衰减
Utility \log\frac{P(u)}{1-P(u)} = \beta_u D_u(m) + b_u 纯衰减(无投影项)

关键不对称:由于偏好导向方向与效用方向近似正交($\omega_u^T \Delta h \approx 0$),效用仅通过 D(m) 受影响——这是 preferenceutility 折衷的形式化根源

相关概念