864 B
864 B
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | |||
|---|---|---|---|---|---|---|---|---|---|
| Steering Vector | 2026-06-01 | 2026-06-01 | concept |
|
|
medium |
Steering Vector(导向向量)
占位符页面 — 待扩展
概述
Steering Vector 是从模型激活中提取的方向向量,用于在推理时通过加法干预 (activation-steering) 控制模型行为。
提取方法
- DiffMean(Marks & Tegmark, 2023):取正负概念激活差值的均值
- SFT-based:通过监督训练学习最优方向
- RePS:基于偏好信号的训练
在统一框架中
导向向量等价于偏置更新 $\Delta b$:h_{i+1} = W h_i + (b + m \Delta b)