20260617:目前有914 页

This commit is contained in:
2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions

View File

@@ -0,0 +1,46 @@
---
title: "Validity Decay"
created: 2026-06-01
updated: 2026-06-01
type: concept
tags: [steering, representation-geometry, controllability]
sources: [raw/papers/xu-why-steering-works-2026.md]
---
# Validity Decay有效性衰减
## 定义
有效性衰减 $D(m)$ 是 Xu et al. (2026) 提出的量化函数,描述当导向干预增大时,激活的**可解码质量**如何退化。
## 核心假设Assumption 4.2
存在一个单调非增的有效性函数 $V_l: \mathbb{R}^{d_l} \to [0, 1]$,捕捉剩余网络 $F_{l \to L}$ 能否稳定解码给定激活。$V_l$ 随激活到流形 $M_l$ 的距离增大而下降。
导向干预下的平均有效性:
$$D(m) = \mathbb{E}_{x \sim X_{\text{stable}}} \left[ V_l(\tilde{h}_l(m)) \right]$$
## RQ 衰减形式
$$D(m) = \begin{cases} \left[ 1 + \frac{(m-m_+)^2}{L_+} \right]^{-p_+} & m \geq 0 \\ \left[ 1 + \frac{(m-m_-)^2}{L_-} \right]^{-p_-} & m < 0 \end{cases}$$
**参数含义**
- $m_\pm$与流形的交点最优有效性位置
- $L_\pm$衰减尺度与流形几何有关
- $p_\pm$尾部衰减速率
## 在 PreferenceUtility 分析中的角色
| 维度 | 公式 | 衰减的作用 |
|------|------|----------|
| Preference | $\log\frac{P(p_p)}{1-P(p_p)} = (\alpha_p m + \beta_p) D_p(m) + b_p$ | 投影增益 × 衰减 |
| Utility | $\log\frac{P(u)}{1-P(u)} = \beta_u D_u(m) + b_u$ | 纯衰减无投影项 |
**关键不对称**由于偏好导向方向与效用方向近似正交$\omega_u^T \Delta h \approx 0$效用仅通过 $D(m)$ 受影响——这是 preferenceutility 折衷的**形式化根源**。
## 相关概念
- [[activation-manifold]] 流形假说的几何基础
- [[representation-validity]] 表示有效性的更广泛概念
- [[steering-dynamics]] $D(m)$ 如何驱动三阶段动态
- [[xu-why-steering-works]] 源论文