myWiki/concepts/activation-manifold.md

---
title: "Activation Manifold"
created: 2026-06-01
updated: 2026-06-01
type: concept
tags: [steering, interpretability, representation-geometry]
sources: [raw/papers/xu-why-steering-works-2026.md]
---

# Activation Manifold（激活流形）

## 定义

激活流形假说（Xu et al., 2026）认为：LLM 中间层的激活集中在训练过程中自然形成的低维流形 $M_l \subset \mathbb{R}^{d_l}$ 上或其附近。

**形式化**（Assumption 4.1）：
$$\Pr_{x \sim X_{\text{stable}}} [d(h_l(x), M_l) \leq \epsilon] \geq 1 - \delta$$

对稳定处理的输入，激活以高概率靠近 $M_l$。

## 流形偏离与效用退化

这是理解 preference–utility 折衷的**关键机制**：

- 导向干预将激活沿偏好方向平移：$\tilde{h}_l(m) = h_l + m \Delta h$
- 小幅平移（|m| 小）：激活仍靠近流形，行为可被下游层正确解码 → 定向调整行为
- 大幅平移（|m| 大）：激活偏离流形的高密度区域 → 表示-解码器失配 → **效用崩溃**

## 有效性衰减函数

使用 Rational Quadratic (RQ) 衰减建模 $D(m)$——偏离流形距离的平滑衰减：

$$D(m) = \begin{cases} [1 + (m-m_+)^2/L_+]^{-p_+} & m \geq 0 \\ [1 + (m-m_-)^2/L_-]^{-p_-} & m < 0 \end{cases}$$

- $m_\pm$：导向轨迹与流形邻域的交点
- $L_\pm$：衰减特征尺度（方向与流形平行时大，切割流形时小）
- $p_\pm$：衰减速率

## 理论意义

将导向控制的质量退化**从经验现象提升为几何可预测的机制**：偏好由投影增益决定，效用退化由偏离流形决定。

## 相关概念

- [[validity-decay]] — $D(m)$ 的详细分析
- [[representation-validity]] — 表示有效性与解码可靠性
- [[steering-dynamics]] — 三阶段动态的行为表现
- [[preference-utility-analysis]] — 偏好-效用分析框架
- [[xu-why-steering-works]] — 源论文