50 lines
1.8 KiB
Markdown
50 lines
1.8 KiB
Markdown
---
|
||
title: "Activation Manifold"
|
||
created: 2026-06-01
|
||
updated: 2026-06-01
|
||
type: concept
|
||
tags: [steering, interpretability, representation-geometry]
|
||
sources: [raw/papers/xu-why-steering-works-2026.md]
|
||
---
|
||
|
||
# Activation Manifold(激活流形)
|
||
|
||
## 定义
|
||
|
||
激活流形假说(Xu et al., 2026)认为:LLM 中间层的激活集中在训练过程中自然形成的低维流形 $M_l \subset \mathbb{R}^{d_l}$ 上或其附近。
|
||
|
||
**形式化**(Assumption 4.1):
|
||
$$\Pr_{x \sim X_{\text{stable}}} [d(h_l(x), M_l) \leq \epsilon] \geq 1 - \delta$$
|
||
|
||
对稳定处理的输入,激活以高概率靠近 $M_l$。
|
||
|
||
## 流形偏离与效用退化
|
||
|
||
这是理解 preference–utility 折衷的**关键机制**:
|
||
|
||
- 导向干预将激活沿偏好方向平移:$\tilde{h}_l(m) = h_l + m \Delta h$
|
||
- 小幅平移(|m| 小):激活仍靠近流形,行为可被下游层正确解码 → 定向调整行为
|
||
- 大幅平移(|m| 大):激活偏离流形的高密度区域 → 表示-解码器失配 → **效用崩溃**
|
||
|
||
## 有效性衰减函数
|
||
|
||
使用 Rational Quadratic (RQ) 衰减建模 $D(m)$——偏离流形距离的平滑衰减:
|
||
|
||
$$D(m) = \begin{cases} [1 + (m-m_+)^2/L_+]^{-p_+} & m \geq 0 \\ [1 + (m-m_-)^2/L_-]^{-p_-} & m < 0 \end{cases}$$
|
||
|
||
- $m_\pm$:导向轨迹与流形邻域的交点
|
||
- $L_\pm$:衰减特征尺度(方向与流形平行时大,切割流形时小)
|
||
- $p_\pm$:衰减速率
|
||
|
||
## 理论意义
|
||
|
||
将导向控制的质量退化**从经验现象提升为几何可预测的机制**:偏好由投影增益决定,效用退化由偏离流形决定。
|
||
|
||
## 相关概念
|
||
|
||
- [[validity-decay]] — $D(m)$ 的详细分析
|
||
- [[representation-validity]] — 表示有效性与解码可靠性
|
||
- [[steering-dynamics]] — 三阶段动态的行为表现
|
||
- [[preference-utility-analysis]] — 偏好-效用分析框架
|
||
- [[xu-why-steering-works]] — 源论文
|