20260617:目前有914 页
This commit is contained in:
46
concepts/activation-steering.md
Normal file
46
concepts/activation-steering.md
Normal file
@@ -0,0 +1,46 @@
|
||||
---
|
||||
title: "Activation Steering"
|
||||
created: 2026-06-01
|
||||
updated: 2026-06-01
|
||||
type: concept
|
||||
tags: [steering, interpretability, inference-time-intervention]
|
||||
sources: [raw/papers/xu-why-steering-works-2026.md]
|
||||
---
|
||||
|
||||
# Activation Steering(激活导向)
|
||||
|
||||
## 定义
|
||||
|
||||
激活导向是在推理时修改 LLM 中间层表示的方法,通过向选定激活添加一个导向向量:
|
||||
|
||||
$$h_{i+1} = W h_i + b + mv$$
|
||||
|
||||
其中 $v$ 是预定的方向,$m$ 是标量系数。
|
||||
|
||||
## 理论基础
|
||||
|
||||
激活导向建立在**线性表示假说** ([[linear-representation-hypothesis]]) 之上:抽象概念在表示空间中近似对应线性子空间。导向向量 $v$ 可以从概念正负样本的激活差异中提取(DiffMean)。
|
||||
|
||||
## 在统一框架中
|
||||
|
||||
在 Xu et al. (2026) 的统一动态权重视角中,激活导向等价于仅修改偏置 b:
|
||||
|
||||
$$h_{i+1} = W h_i + (b + m\Delta b)$$
|
||||
|
||||
$$\Delta h = m\Delta b$$
|
||||
|
||||
它是动态权重更新中**参数规模最小**(仅 $d_{out}$ 参数)的形式。
|
||||
|
||||
## 常见方法
|
||||
|
||||
- **DiffMean**(Marks & Tegmark, 2023):无训练,从对比对中取激活差值的均值
|
||||
- **SFT**:监督微调导向向量
|
||||
- **RePS**:基于偏好的训练
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[dynamic-weight-updates]] — 统一框架
|
||||
- [[steering-vector]] — 导向向量的提取方法
|
||||
- [[linear-representation-hypothesis]] — 线性空间假设
|
||||
- [[split-steering]] — 改进的向量训练方法
|
||||
- [[xu-why-steering-works]] — 源论文
|
||||
Reference in New Issue
Block a user