Files
myWiki/concepts/validity-decay.md

47 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Validity Decay"
created: 2026-06-01
updated: 2026-06-01
type: concept
tags: [steering, representation-geometry, controllability]
sources: [raw/papers/xu-why-steering-works-2026.md]
---
# Validity Decay有效性衰减
## 定义
有效性衰减 $D(m)$ 是 Xu et al. (2026) 提出的量化函数,描述当导向干预增大时,激活的**可解码质量**如何退化。
## 核心假设Assumption 4.2
存在一个单调非增的有效性函数 $V_l: \mathbb{R}^{d_l} \to [0, 1]$,捕捉剩余网络 $F_{l \to L}$ 能否稳定解码给定激活。$V_l$ 随激活到流形 $M_l$ 的距离增大而下降。
导向干预下的平均有效性:
$$D(m) = \mathbb{E}_{x \sim X_{\text{stable}}} \left[ V_l(\tilde{h}_l(m)) \right]$$
## RQ 衰减形式
$$D(m) = \begin{cases} \left[ 1 + \frac{(m-m_+)^2}{L_+} \right]^{-p_+} & m \geq 0 \\ \left[ 1 + \frac{(m-m_-)^2}{L_-} \right]^{-p_-} & m < 0 \end{cases}$$
**参数含义**
- $m_\pm$与流形的交点最优有效性位置
- $L_\pm$衰减尺度与流形几何有关
- $p_\pm$尾部衰减速率
## 在 PreferenceUtility 分析中的角色
| 维度 | 公式 | 衰减的作用 |
|------|------|----------|
| Preference | $\log\frac{P(p_p)}{1-P(p_p)} = (\alpha_p m + \beta_p) D_p(m) + b_p$ | 投影增益 × 衰减 |
| Utility | $\log\frac{P(u)}{1-P(u)} = \beta_u D_u(m) + b_u$ | 纯衰减无投影项 |
**关键不对称**由于偏好导向方向与效用方向近似正交$\omega_u^T \Delta h \approx 0$效用仅通过 $D(m)$ 受影响——这是 preferenceutility 折衷的**形式化根源**。
## 相关概念
- [[activation-manifold]] 流形假说的几何基础
- [[representation-validity]] 表示有效性的更广泛概念
- [[steering-dynamics]] $D(m)$ 如何驱动三阶段动态
- [[xu-why-steering-works]] 源论文