Files
myWiki/concepts/activation-manifold.md

50 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Activation Manifold"
created: 2026-06-01
updated: 2026-06-01
type: concept
tags: [steering, interpretability, representation-geometry]
sources: [raw/papers/xu-why-steering-works-2026.md]
---
# Activation Manifold激活流形
## 定义
激活流形假说Xu et al., 2026认为LLM 中间层的激活集中在训练过程中自然形成的低维流形 $M_l \subset \mathbb{R}^{d_l}$ 上或其附近。
**形式化**Assumption 4.1
$$\Pr_{x \sim X_{\text{stable}}} [d(h_l(x), M_l) \leq \epsilon] \geq 1 - \delta$$
对稳定处理的输入,激活以高概率靠近 $M_l$。
## 流形偏离与效用退化
这是理解 preferenceutility 折衷的**关键机制**
- 导向干预将激活沿偏好方向平移:$\tilde{h}_l(m) = h_l + m \Delta h$
- 小幅平移(|m| 小):激活仍靠近流形,行为可被下游层正确解码 → 定向调整行为
- 大幅平移(|m| 大):激活偏离流形的高密度区域 → 表示-解码器失配 → **效用崩溃**
## 有效性衰减函数
使用 Rational Quadratic (RQ) 衰减建模 $D(m)$——偏离流形距离的平滑衰减:
$$D(m) = \begin{cases} [1 + (m-m_+)^2/L_+]^{-p_+} & m \geq 0 \\ [1 + (m-m_-)^2/L_-]^{-p_-} & m < 0 \end{cases}$$
- $m_\pm$导向轨迹与流形邻域的交点
- $L_\pm$衰减特征尺度方向与流形平行时大切割流形时小
- $p_\pm$衰减速率
## 理论意义
将导向控制的质量退化**从经验现象提升为几何可预测的机制**偏好由投影增益决定效用退化由偏离流形决定
## 相关概念
- [[validity-decay]] $D(m)$ 的详细分析
- [[representation-validity]] 表示有效性与解码可靠性
- [[steering-dynamics]] 三阶段动态的行为表现
- [[preference-utility-analysis]] 偏好-效用分析框架
- [[xu-why-steering-works]] 源论文