Files
myWiki/papers/xu-why-steering-works.md

4.5 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics 2026-06-01 2026-06-01 paper
steering
interpretability
controllability
llm-dynamics
raw/papers/xu-why-steering-works-2026.md

Why Steering Works: 语言模型参数动态的统一视角

核心问题

LLM 控制方法权重微调、LoRA、激活导向各自孤立发展缺少统一的比较框架。本文提出一个统一的动态权重更新视角将这些方法纳入同一数学框架并揭示它们共享的 preferenceutility 折衷规律。

统一公式

所有干预方法可统一表达为动态权重更新:

h_{i+1} = (W + m_1 \Delta W) h_i + (b + m_2 \Delta b)
方法 统一仿射形式 激活影响 Δh 参数规模
Local Weight (W + m\Delta W)h_i + (b + m\Delta b) m(\Delta W h_i + \Delta b) d_{in}\times d_{out} + d_{out}
LoRA (W + mBA)h_i + b m(BA h_i) d_{in}\times r + r\times d_{out}
Steering Vector Wh_i + (b + m\Delta b) m\Delta b d_{out}

PreferenceUtility 分析

控制效果被分解为两个独立维度:

  • Preference偏好:模型对目标概念的内在倾向,通过 PrefOdds(q) = log[P(p_p|q)/P(p_n|q)] 量化
  • Utility效用:模型的通用任务能力(连贯性、指令遵循),通过 UtilOdds(q) 量化

两者在 log-odds 共享尺度上测量,使用极性对比示例对 (A_p, A_n)。

关键发现:三阶段统一动态

所有干预形式在 m 变化时呈现一致的动态模式:

  1. 线性区|m| 小):偏好 log-odds 随 m 近似线性增长
  2. 过渡区:趋势明显变化
  3. 收敛区:曲线平坦化、稳定

效用 log-odds 在 m≈0 附近达到峰值,随 |m| 增大逐渐下降。

激活流形假说 activation-manifold

训练引起的激活流形 M_l对稳定处理的输入中间层激活高概率位于低维流形 M_l 上或其附近。

有效性衰减:导向干预将隐藏状态沿固定方向平移。小幅平移可定向调整行为;大幅平移将表示推出训练期间学到的高密度区域,导致解码器失配 → 效用崩溃。

定量建模使用 Rational Quadratic (RQ) 衰减形式:

D(m) = \begin{cases} [1 + (m-m_+)^2/L_+]^{-p_+} & m \geq 0 \\ [1 + (m-m_-)^2/L_-]^{-p_-} & m < 0 \end{cases}

偏好 log-odds 拟合

\log\frac{P(p_p|\tilde{h}(m))}{1-P(p_p|\tilde{h}(m))} = (\alpha_p m + \beta_p) D_p(m) + b_p
  • α_p 测量导向方向与偏好向量的对齐度
  • 拟合 R² > 0.95(绝大多数设置)

效用 log-odds 拟合

\log\frac{P(u|\tilde{h}(m))}{1-P(u|\tilde{h}(m))} = \beta_u D_u(m) + b_u
  • 对于偏好导向方向ω_u^T Δh ≈ 0效用仅通过有效性衰减受影响
  • 拟合 R² > 0.97

SPLIT 方法 split-steering

基于机制分析,提出 Steering with PreferenceUtiLity IntervenTion

  • 效用损失L_{util} = \lambda_p L_p + \lambda_n L_n — 同时在正负样本上训练以保持通用能力
  • 偏好损失L_{pref} = γ·σ(θ - (L_n - L_p)) — Hinge margin loss 最大化偏好 gap
  • 联合目标L = L_{util} + L_{pref}

在三种干预形式Local Weight、LoRA、Vector上均优于 SFT 和 RePS 基线。

核心贡献

  1. 统一动态权重更新视角 — 首次将权重微调、LoRA、激活导向纳入同一数学框架
  2. PreferenceUtility 解耦分析 — 在共享 log-odds 尺度上定量刻画控制效果
  3. 激活流形假说 — 将 utility 退化解释为偏离流形导致的有效性衰减
  4. SPLIT 优化方法 — 联合优化偏好与效用,在多种干预形式上取得最优

关键概念

相关