1.4 KiB
1.4 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| Activation Steering | 2026-06-01 | 2026-06-01 | concept |
|
|
Activation Steering(激活导向)
定义
激活导向是在推理时修改 LLM 中间层表示的方法,通过向选定激活添加一个导向向量:
h_{i+1} = W h_i + b + mv
其中 v 是预定的方向,m 是标量系数。
理论基础
激活导向建立在线性表示假说 (linear-representation-hypothesis) 之上:抽象概念在表示空间中近似对应线性子空间。导向向量 v 可以从概念正负样本的激活差异中提取(DiffMean)。
在统一框架中
在 Xu et al. (2026) 的统一动态权重视角中,激活导向等价于仅修改偏置 b:
h_{i+1} = W h_i + (b + m\Delta b)
\Delta h = m\Delta b
它是动态权重更新中参数规模最小(仅 d_{out} 参数)的形式。
常见方法
- DiffMean(Marks & Tegmark, 2023):无训练,从对比对中取激活差值的均值
- SFT:监督微调导向向量
- RePS:基于偏好的训练
相关概念
- dynamic-weight-updates — 统一框架
- steering-vector — 导向向量的提取方法
- linear-representation-hypothesis — 线性空间假设
- split-steering — 改进的向量训练方法
- xu-why-steering-works — 源论文