Files
myWiki/concepts/activation-manifold.md

1.8 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Activation Manifold 2026-06-01 2026-06-01 concept
steering
interpretability
representation-geometry
raw/papers/xu-why-steering-works-2026.md

Activation Manifold激活流形

定义

激活流形假说Xu et al., 2026认为LLM 中间层的激活集中在训练过程中自然形成的低维流形 M_l \subset \mathbb{R}^{d_l} 上或其附近。

形式化Assumption 4.1

\Pr_{x \sim X_{\text{stable}}} [d(h_l(x), M_l) \leq \epsilon] \geq 1 - \delta

对稳定处理的输入,激活以高概率靠近 $M_l$。

流形偏离与效用退化

这是理解 preferenceutility 折衷的关键机制

  • 导向干预将激活沿偏好方向平移:\tilde{h}_l(m) = h_l + m \Delta h
  • 小幅平移(|m| 小):激活仍靠近流形,行为可被下游层正确解码 → 定向调整行为
  • 大幅平移(|m| 大):激活偏离流形的高密度区域 → 表示-解码器失配 → 效用崩溃

有效性衰减函数

使用 Rational Quadratic (RQ) 衰减建模 $D(m)$——偏离流形距离的平滑衰减:

D(m) = \begin{cases} [1 + (m-m_+)^2/L_+]^{-p_+} & m \geq 0 \\ [1 + (m-m_-)^2/L_-]^{-p_-} & m < 0 \end{cases}
  • $m_\pm$:导向轨迹与流形邻域的交点
  • $L_\pm$:衰减特征尺度(方向与流形平行时大,切割流形时小)
  • $p_\pm$:衰减速率

理论意义

将导向控制的质量退化从经验现象提升为几何可预测的机制:偏好由投影增益决定,效用退化由偏离流形决定。

相关概念