📌 基本信息

论文标题：Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics
作者：Ziwen Xu, Chenyan Wu, Hengyu Sun, Haiwen Hong, Mengru Wang, Yunzhi Yao, Longtao Huang, Hui Xue, Shumin Deng, Zhixuan Chu, Huajun Chen, Ningyu Zhang
机构：浙江大学 + 阿里巴巴
arXiv：2602.02343 (v3, 2026-04-12)
代码：github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md
添加时间：2026-06-01
领域：LLM 可控性 / 可解释性 / 表示几何

🎯 核心概念

dynamic-weight-updates — 统一的动态权重更新公式，将 Local Weight、LoRA、Steering Vector 纳入同一仿射框架
preference-utility-analysis — 将控制效果解耦为偏好（目标概念对齐）和效用（任务连贯性），在共享 log-odds 尺度上测量
activation-manifold — 训练引起的低维激活流形假说：效用退化源于偏离流形导致的有效性衰减
steering-dynamics — 所有干预形式呈现统一的三阶段偏好动态：线性区 → 过渡区 → 收敛区
split-steering — SPLIT 联合优化方法，显式优化偏好同时保留效用

🔗 概念网络

核心连接：

dynamic-weight-updates → preference-utility-analysis → activation-manifold
         ↓                        ↓                        ↓
  intervention-multiplier    preference-log-odds      validity-decay
         ↓                                              ↓
   steering-dynamics ← ← ← ← ← ← ← ← ← ← ← ← ← representation-validity
         ↓
   split-steering → 优化 preference + utility 的折衷

扩展网络：

连接了 lora、activation-steering、linear-representation-hypothesis 三个基础概念
新建了 steering-vector、model-steering、controlled-text-generation、representation-space 四个占位符
论文页面实现了 15 个 wikilink 的密集交叉引用

📚 Wiki 集成

新增页面：18 个（1 论文 + 16 概念 + 1 Review）
论文页面：xu-why-steering-works — Why Steering Works — 语言模型参数动态的统一视角
链接密度：论文页面 11 个出链，核心概念页面平均 4-6 个出链
总规模：528 → 546 页

💡 关键洞察

1. "一切干预皆权重更新" 这篇论文的核心贡献在于统一视角的力量。传统上，权重微调、LoRA 和激活导向被视为不同范式，但统一公式 h_{i+1} = (W + m_1\Delta W)h_i + (b + m_2\Delta b) 揭示了它们的本质一致——仅在 ΔW 和 Δb 的更新方式上不同。这种统一性不仅是数学上的优雅重组，更催生了统一的动态分析。

2. 激活流形假说——从经验现象到几何可预测 最深刻的洞察是效用退化的机制解释：导向并非"破坏模型"，而是将激活推出训练形成的流形。这解释了为什么小 m 线性有效、为什么效用总在 m≈0 处最优。RQ 衰减模型将抽象的几何直觉转化为可拟合的定量形式（R² > 0.95）——这是可解释性工作中少见的高质量理论-实验对接。

3. 对 AI 安全与控制的影响 这篇论文与 wiki 中已有的 hyperagents、clawless-ai-agent-security、skillopt 形成互补：安全性工程常需"控制模型行为"，而本文提供了理解控制效果与代价的定量语言。SPLIT 优化目标可直接融入安全导向的训练管线。

3.7 KiB Raw Blame History Unescape Escape

📌 基本信息

🎯 核心概念

🔗 概念网络

📚 Wiki 集成

💡 关键洞察

3.7 KiB

Raw Blame History