1.8 KiB
1.8 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| Activation Manifold | 2026-06-01 | 2026-06-01 | concept |
|
|
Activation Manifold(激活流形)
定义
激活流形假说(Xu et al., 2026)认为:LLM 中间层的激活集中在训练过程中自然形成的低维流形 M_l \subset \mathbb{R}^{d_l} 上或其附近。
形式化(Assumption 4.1):
\Pr_{x \sim X_{\text{stable}}} [d(h_l(x), M_l) \leq \epsilon] \geq 1 - \delta
对稳定处理的输入,激活以高概率靠近 $M_l$。
流形偏离与效用退化
这是理解 preference–utility 折衷的关键机制:
- 导向干预将激活沿偏好方向平移:
\tilde{h}_l(m) = h_l + m \Delta h - 小幅平移(|m| 小):激活仍靠近流形,行为可被下游层正确解码 → 定向调整行为
- 大幅平移(|m| 大):激活偏离流形的高密度区域 → 表示-解码器失配 → 效用崩溃
有效性衰减函数
使用 Rational Quadratic (RQ) 衰减建模 $D(m)$——偏离流形距离的平滑衰减:
D(m) = \begin{cases} [1 + (m-m_+)^2/L_+]^{-p_+} & m \geq 0 \\ [1 + (m-m_-)^2/L_-]^{-p_-} & m < 0 \end{cases}
- $m_\pm$:导向轨迹与流形邻域的交点
- $L_\pm$:衰减特征尺度(方向与流形平行时大,切割流形时小)
- $p_\pm$:衰减速率
理论意义
将导向控制的质量退化从经验现象提升为几何可预测的机制:偏好由投影增益决定,效用退化由偏离流形决定。
相关概念
- validity-decay —
D(m)的详细分析 - representation-validity — 表示有效性与解码可靠性
- steering-dynamics — 三阶段动态的行为表现
- preference-utility-analysis — 偏好-效用分析框架
- xu-why-steering-works — 源论文