myWiki/concepts/activation-steering.md

---
title: "Activation Steering"
created: 2026-06-01
updated: 2026-06-01
type: concept
tags: [steering, interpretability, inference-time-intervention]
sources: [raw/papers/xu-why-steering-works-2026.md]
---

# Activation Steering（激活导向）

## 定义

激活导向是在推理时修改 LLM 中间层表示的方法，通过向选定激活添加一个导向向量：

$$h_{i+1} = W h_i + b + mv$$

其中 $v$ 是预定的方向，$m$ 是标量系数。

## 理论基础

激活导向建立在**线性表示假说** ([[linear-representation-hypothesis]]) 之上：抽象概念在表示空间中近似对应线性子空间。导向向量 $v$ 可以从概念正负样本的激活差异中提取（DiffMean）。

## 在统一框架中

在 Xu et al. (2026) 的统一动态权重视角中，激活导向等价于仅修改偏置 b：

$$h_{i+1} = W h_i + (b + m\Delta b)$$

$$\Delta h = m\Delta b$$

它是动态权重更新中**参数规模最小**（仅 $d_{out}$ 参数）的形式。

## 常见方法

- **DiffMean**（Marks & Tegmark, 2023）：无训练，从对比对中取激活差值的均值
- **SFT**：监督微调导向向量
- **RePS**：基于偏好的训练

## 相关概念

- [[dynamic-weight-updates]] — 统一框架
- [[steering-vector]] — 导向向量的提取方法
- [[linear-representation-hypothesis]] — 线性空间假设
- [[split-steering]] — 改进的向量训练方法
- [[xu-why-steering-works]] — 源论文