20260617:目前有914 页
This commit is contained in:
104
papers/xu-why-steering-works.md
Normal file
104
papers/xu-why-steering-works.md
Normal file
@@ -0,0 +1,104 @@
|
||||
---
|
||||
title: "Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics"
|
||||
created: 2026-06-01
|
||||
updated: 2026-06-01
|
||||
type: paper
|
||||
tags: [steering, interpretability, controllability, llm-dynamics]
|
||||
sources: [raw/papers/xu-why-steering-works-2026.md]
|
||||
---
|
||||
|
||||
# Why Steering Works: 语言模型参数动态的统一视角
|
||||
|
||||
## 核心问题
|
||||
|
||||
LLM 控制方法(权重微调、LoRA、激活导向)各自孤立发展,缺少统一的比较框架。本文提出一个统一的动态权重更新视角,将这些方法纳入同一数学框架,并揭示它们共享的 preference–utility 折衷规律。
|
||||
|
||||
## 统一公式
|
||||
|
||||
所有干预方法可统一表达为动态权重更新:
|
||||
|
||||
$$h_{i+1} = (W + m_1 \Delta W) h_i + (b + m_2 \Delta b)$$
|
||||
|
||||
| 方法 | 统一仿射形式 | 激活影响 Δh | 参数规模 |
|
||||
|------|------------|-----------|---------|
|
||||
| Local Weight | $(W + m\Delta W)h_i + (b + m\Delta b)$ | $m(\Delta W h_i + \Delta b)$ | $d_{in}\times d_{out} + d_{out}$ |
|
||||
| LoRA | $(W + mBA)h_i + b$ | $m(BA h_i)$ | $d_{in}\times r + r\times d_{out}$ |
|
||||
| Steering Vector | $Wh_i + (b + m\Delta b)$ | $m\Delta b$ | $d_{out}$ |
|
||||
|
||||
## Preference–Utility 分析
|
||||
|
||||
控制效果被分解为两个独立维度:
|
||||
|
||||
- **Preference(偏好)**:模型对目标概念的内在倾向,通过 PrefOdds(q) = log[P(p_p|q)/P(p_n|q)] 量化
|
||||
- **Utility(效用)**:模型的通用任务能力(连贯性、指令遵循),通过 UtilOdds(q) 量化
|
||||
|
||||
两者在 log-odds 共享尺度上测量,使用极性对比示例对 (A_p, A_n)。
|
||||
|
||||
### 关键发现:三阶段统一动态
|
||||
|
||||
所有干预形式在 m 变化时呈现一致的动态模式:
|
||||
1. **线性区**(|m| 小):偏好 log-odds 随 m 近似线性增长
|
||||
2. **过渡区**:趋势明显变化
|
||||
3. **收敛区**:曲线平坦化、稳定
|
||||
|
||||
效用 log-odds 在 m≈0 附近达到峰值,随 |m| 增大逐渐下降。
|
||||
|
||||
## 激活流形假说 [[activation-manifold]]
|
||||
|
||||
训练引起的激活流形 M_l:对稳定处理的输入,中间层激活高概率位于低维流形 M_l 上或其附近。
|
||||
|
||||
**有效性衰减**:导向干预将隐藏状态沿固定方向平移。小幅平移可定向调整行为;大幅平移将表示推出训练期间学到的高密度区域,导致解码器失配 → 效用崩溃。
|
||||
|
||||
定量建模使用 Rational Quadratic (RQ) 衰减形式:
|
||||
|
||||
$$D(m) = \begin{cases} [1 + (m-m_+)^2/L_+]^{-p_+} & m \geq 0 \\ [1 + (m-m_-)^2/L_-]^{-p_-} & m < 0 \end{cases}$$
|
||||
|
||||
### 偏好 log-odds 拟合
|
||||
|
||||
$$\log\frac{P(p_p|\tilde{h}(m))}{1-P(p_p|\tilde{h}(m))} = (\alpha_p m + \beta_p) D_p(m) + b_p$$
|
||||
|
||||
- α_p 测量导向方向与偏好向量的对齐度
|
||||
- 拟合 R² > 0.95(绝大多数设置)
|
||||
|
||||
### 效用 log-odds 拟合
|
||||
|
||||
$$\log\frac{P(u|\tilde{h}(m))}{1-P(u|\tilde{h}(m))} = \beta_u D_u(m) + b_u$$
|
||||
|
||||
- 对于偏好导向方向,ω_u^T Δh ≈ 0,效用仅通过有效性衰减受影响
|
||||
- 拟合 R² > 0.97
|
||||
|
||||
## SPLIT 方法 [[split-steering]]
|
||||
|
||||
基于机制分析,提出 **S**teering with **P**reference–Uti**L**ity **I**nterven**T**ion:
|
||||
|
||||
- **效用损失**:$L_{util} = \lambda_p L_p + \lambda_n L_n$ — 同时在正负样本上训练以保持通用能力
|
||||
- **偏好损失**:$L_{pref} = γ·σ(θ - (L_n - L_p))$ — Hinge margin loss 最大化偏好 gap
|
||||
- **联合目标**:$L = L_{util} + L_{pref}$
|
||||
|
||||
在三种干预形式(Local Weight、LoRA、Vector)上均优于 SFT 和 RePS 基线。
|
||||
|
||||
## 核心贡献
|
||||
|
||||
1. **统一动态权重更新视角** — 首次将权重微调、LoRA、激活导向纳入同一数学框架
|
||||
2. **Preference–Utility 解耦分析** — 在共享 log-odds 尺度上定量刻画控制效果
|
||||
3. **激活流形假说** — 将 utility 退化解释为偏离流形导致的有效性衰减
|
||||
4. **SPLIT 优化方法** — 联合优化偏好与效用,在多种干预形式上取得最优
|
||||
|
||||
## 关键概念
|
||||
|
||||
- [[dynamic-weight-updates]] — 统一的动态权重更新公式
|
||||
- [[preference-utility-analysis]] — 偏好与效用的解耦分析框架
|
||||
- [[activation-manifold]] — 训练引起的低维激活流形
|
||||
- [[validity-decay]] — 偏离流形导致的有效性衰减
|
||||
- [[steering-dynamics]] — 三阶段统一导向动态
|
||||
- [[split-steering]] — SPLIT 联合优化方法
|
||||
- [[preference-log-odds]] — 偏好 log-odds 度量
|
||||
- [[intervention-multiplier]] — 干预乘子 m
|
||||
- [[lora]] — 低秩适配
|
||||
- [[activation-steering]] — 激活导向
|
||||
- [[linear-representation-hypothesis]] — 线性表示假说
|
||||
|
||||
## 相关
|
||||
|
||||
- [[representation-validity]] — 表示有效性与解码器匹配
|
||||
- [[model-steering]] — 模型导向控制的更广泛文献
|
||||
Reference in New Issue
Block a user