Files
myWiki/papers/xu-why-steering-works.md

105 lines
4.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics"
created: 2026-06-01
updated: 2026-06-01
type: paper
tags: [steering, interpretability, controllability, llm-dynamics]
sources: [raw/papers/xu-why-steering-works-2026.md]
---
# Why Steering Works: 语言模型参数动态的统一视角
## 核心问题
LLM 控制方法权重微调、LoRA、激活导向各自孤立发展缺少统一的比较框架。本文提出一个统一的动态权重更新视角将这些方法纳入同一数学框架并揭示它们共享的 preferenceutility 折衷规律。
## 统一公式
所有干预方法可统一表达为动态权重更新:
$$h_{i+1} = (W + m_1 \Delta W) h_i + (b + m_2 \Delta b)$$
| 方法 | 统一仿射形式 | 激活影响 Δh | 参数规模 |
|------|------------|-----------|---------|
| Local Weight | $(W + m\Delta W)h_i + (b + m\Delta b)$ | $m(\Delta W h_i + \Delta b)$ | $d_{in}\times d_{out} + d_{out}$ |
| LoRA | $(W + mBA)h_i + b$ | $m(BA h_i)$ | $d_{in}\times r + r\times d_{out}$ |
| Steering Vector | $Wh_i + (b + m\Delta b)$ | $m\Delta b$ | $d_{out}$ |
## PreferenceUtility 分析
控制效果被分解为两个独立维度:
- **Preference偏好**:模型对目标概念的内在倾向,通过 PrefOdds(q) = log[P(p_p|q)/P(p_n|q)] 量化
- **Utility效用**:模型的通用任务能力(连贯性、指令遵循),通过 UtilOdds(q) 量化
两者在 log-odds 共享尺度上测量,使用极性对比示例对 (A_p, A_n)。
### 关键发现:三阶段统一动态
所有干预形式在 m 变化时呈现一致的动态模式:
1. **线性区**|m| 小):偏好 log-odds 随 m 近似线性增长
2. **过渡区**:趋势明显变化
3. **收敛区**:曲线平坦化、稳定
效用 log-odds 在 m≈0 附近达到峰值,随 |m| 增大逐渐下降。
## 激活流形假说 [[activation-manifold]]
训练引起的激活流形 M_l对稳定处理的输入中间层激活高概率位于低维流形 M_l 上或其附近。
**有效性衰减**:导向干预将隐藏状态沿固定方向平移。小幅平移可定向调整行为;大幅平移将表示推出训练期间学到的高密度区域,导致解码器失配 → 效用崩溃。
定量建模使用 Rational Quadratic (RQ) 衰减形式:
$$D(m) = \begin{cases} [1 + (m-m_+)^2/L_+]^{-p_+} & m \geq 0 \\ [1 + (m-m_-)^2/L_-]^{-p_-} & m < 0 \end{cases}$$
### 偏好 log-odds 拟合
$$\log\frac{P(p_p|\tilde{h}(m))}{1-P(p_p|\tilde{h}(m))} = (\alpha_p m + \beta_p) D_p(m) + b_p$$
- α_p 测量导向方向与偏好向量的对齐度
- 拟合 R² > 0.95(绝大多数设置)
### 效用 log-odds 拟合
$$\log\frac{P(u|\tilde{h}(m))}{1-P(u|\tilde{h}(m))} = \beta_u D_u(m) + b_u$$
- 对于偏好导向方向ω_u^T Δh ≈ 0效用仅通过有效性衰减受影响
- 拟合 R² > 0.97
## SPLIT 方法 [[split-steering]]
基于机制分析,提出 **S**teering with **P**referenceUti**L**ity **I**nterven**T**ion
- **效用损失**$L_{util} = \lambda_p L_p + \lambda_n L_n$ — 同时在正负样本上训练以保持通用能力
- **偏好损失**$L_{pref} = γ·σ(θ - (L_n - L_p))$ — Hinge margin loss 最大化偏好 gap
- **联合目标**$L = L_{util} + L_{pref}$
在三种干预形式Local Weight、LoRA、Vector上均优于 SFT 和 RePS 基线。
## 核心贡献
1. **统一动态权重更新视角** — 首次将权重微调、LoRA、激活导向纳入同一数学框架
2. **PreferenceUtility 解耦分析** — 在共享 log-odds 尺度上定量刻画控制效果
3. **激活流形假说** — 将 utility 退化解释为偏离流形导致的有效性衰减
4. **SPLIT 优化方法** — 联合优化偏好与效用,在多种干预形式上取得最优
## 关键概念
- [[dynamic-weight-updates]] — 统一的动态权重更新公式
- [[preference-utility-analysis]] — 偏好与效用的解耦分析框架
- [[activation-manifold]] — 训练引起的低维激活流形
- [[validity-decay]] — 偏离流形导致的有效性衰减
- [[steering-dynamics]] — 三阶段统一导向动态
- [[split-steering]] — SPLIT 联合优化方法
- [[preference-log-odds]] — 偏好 log-odds 度量
- [[intervention-multiplier]] — 干预乘子 m
- [[lora]] — 低秩适配
- [[activation-steering]] — 激活导向
- [[linear-representation-hypothesis]] — 线性表示假说
## 相关
- [[representation-validity]] — 表示有效性与解码器匹配
- [[model-steering]] — 模型导向控制的更广泛文献