Files
myWiki/concepts/activation-steering.md

47 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Activation Steering"
created: 2026-06-01
updated: 2026-06-01
type: concept
tags: [steering, interpretability, inference-time-intervention]
sources: [raw/papers/xu-why-steering-works-2026.md]
---
# Activation Steering激活导向
## 定义
激活导向是在推理时修改 LLM 中间层表示的方法,通过向选定激活添加一个导向向量:
$$h_{i+1} = W h_i + b + mv$$
其中 $v$ 是预定的方向,$m$ 是标量系数。
## 理论基础
激活导向建立在**线性表示假说** ([[linear-representation-hypothesis]]) 之上:抽象概念在表示空间中近似对应线性子空间。导向向量 $v$ 可以从概念正负样本的激活差异中提取DiffMean
## 在统一框架中
在 Xu et al. (2026) 的统一动态权重视角中,激活导向等价于仅修改偏置 b
$$h_{i+1} = W h_i + (b + m\Delta b)$$
$$\Delta h = m\Delta b$$
它是动态权重更新中**参数规模最小**(仅 $d_{out}$ 参数)的形式。
## 常见方法
- **DiffMean**Marks & Tegmark, 2023无训练从对比对中取激活差值的均值
- **SFT**:监督微调导向向量
- **RePS**:基于偏好的训练
## 相关概念
- [[dynamic-weight-updates]] — 统一框架
- [[steering-vector]] — 导向向量的提取方法
- [[linear-representation-hypothesis]] — 线性空间假设
- [[split-steering]] — 改进的向量训练方法
- [[xu-why-steering-works]] — 源论文