20260617:目前有914 页

This commit is contained in:
2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions

View File

@@ -0,0 +1,49 @@
---
title: "Activation Manifold"
created: 2026-06-01
updated: 2026-06-01
type: concept
tags: [steering, interpretability, representation-geometry]
sources: [raw/papers/xu-why-steering-works-2026.md]
---
# Activation Manifold激活流形
## 定义
激活流形假说Xu et al., 2026认为LLM 中间层的激活集中在训练过程中自然形成的低维流形 $M_l \subset \mathbb{R}^{d_l}$ 上或其附近。
**形式化**Assumption 4.1
$$\Pr_{x \sim X_{\text{stable}}} [d(h_l(x), M_l) \leq \epsilon] \geq 1 - \delta$$
对稳定处理的输入,激活以高概率靠近 $M_l$。
## 流形偏离与效用退化
这是理解 preferenceutility 折衷的**关键机制**
- 导向干预将激活沿偏好方向平移:$\tilde{h}_l(m) = h_l + m \Delta h$
- 小幅平移(|m| 小):激活仍靠近流形,行为可被下游层正确解码 → 定向调整行为
- 大幅平移(|m| 大):激活偏离流形的高密度区域 → 表示-解码器失配 → **效用崩溃**
## 有效性衰减函数
使用 Rational Quadratic (RQ) 衰减建模 $D(m)$——偏离流形距离的平滑衰减:
$$D(m) = \begin{cases} [1 + (m-m_+)^2/L_+]^{-p_+} & m \geq 0 \\ [1 + (m-m_-)^2/L_-]^{-p_-} & m < 0 \end{cases}$$
- $m_\pm$导向轨迹与流形邻域的交点
- $L_\pm$衰减特征尺度方向与流形平行时大切割流形时小
- $p_\pm$衰减速率
## 理论意义
将导向控制的质量退化**从经验现象提升为几何可预测的机制**偏好由投影增益决定效用退化由偏离流形决定
## 相关概念
- [[validity-decay]] $D(m)$ 的详细分析
- [[representation-validity]] 表示有效性与解码可靠性
- [[steering-dynamics]] 三阶段动态的行为表现
- [[preference-utility-analysis]] 偏好-效用分析框架
- [[xu-why-steering-works]] 源论文