Files
myWiki/concepts/steering-vector.md

864 B
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
Steering Vector 2026-06-01 2026-06-01 concept
steering
interpretability
raw/papers/xu-why-steering-works-2026.md
medium

Steering Vector导向向量

占位符页面 — 待扩展

概述

Steering Vector 是从模型激活中提取的方向向量,用于在推理时通过加法干预 (activation-steering) 控制模型行为。

提取方法

  • DiffMeanMarks & Tegmark, 2023取正负概念激活差值的均值
  • SFT-based:通过监督训练学习最优方向
  • RePS:基于偏好信号的训练

在统一框架中

导向向量等价于偏置更新 $\Delta b$h_{i+1} = W h_i + (b + m \Delta b)

相关概念