20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/reviews/xu-why-steering-works-review-20260601.md
+++ b/reviews/xu-why-steering-works-review-20260601.md
@@ -0,0 +1,62 @@
+---
+title: "Review: Why Steering Works — 参数动态统一视角"
+created: 2026-06-01
+updated: 2026-06-01
+type: review
+tags: [review, steering, interpretability, controllability]
+sources: [raw/papers/xu-why-steering-works-2026.md]
+---
+
+# 📌 基本信息
+
+- **论文标题**：Why Steering Works: Toward a Unified View of Language Model Parameter Dynamics
+- **作者**：Ziwen Xu, Chenyan Wu, Hengyu Sun, Haiwen Hong, Mengru Wang, Yunzhi Yao, Longtao Huang, Hui Xue, Shumin Deng, Zhixuan Chu, Huajun Chen, Ningyu Zhang
+- **机构**：浙江大学 + 阿里巴巴
+- **arXiv**：2602.02343 (v3, 2026-04-12)
+- **代码**：github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md
+- **添加时间**：2026-06-01
+- **领域**：LLM 可控性 / 可解释性 / 表示几何
+
+# 🎯 核心概念
+
+1. **[[dynamic-weight-updates]]** — 统一的动态权重更新公式，将 Local Weight、LoRA、Steering Vector 纳入同一仿射框架
+2. **[[preference-utility-analysis]]** — 将控制效果解耦为偏好（目标概念对齐）和效用（任务连贯性），在共享 log-odds 尺度上测量
+3. **[[activation-manifold]]** — 训练引起的低维激活流形假说：效用退化源于偏离流形导致的有效性衰减
+4. **[[steering-dynamics]]** — 所有干预形式呈现统一的三阶段偏好动态：线性区 → 过渡区 → 收敛区
+5. **[[split-steering]]** — SPLIT 联合优化方法，显式优化偏好同时保留效用
+
+# 🔗 概念网络
+
+**核心连接**：
+```
+dynamic-weight-updates → preference-utility-analysis → activation-manifold
+         ↓                        ↓                        ↓
+  intervention-multiplier    preference-log-odds      validity-decay
+         ↓                                              ↓
+   steering-dynamics ← ← ← ← ← ← ← ← ← ← ← ← ← representation-validity
+         ↓
+   split-steering → 优化 preference + utility 的折衷
+```
+
+**扩展网络**：
+- 连接了 [[lora]]、[[activation-steering]]、[[linear-representation-hypothesis]] 三个基础概念
+- 新建了 [[steering-vector]]、[[model-steering]]、[[controlled-text-generation]]、[[representation-space]] 四个占位符
+- 论文页面实现了 15 个 wikilink 的密集交叉引用
+
+# 📚 Wiki 集成
+
+- **新增页面**：18 个（1 论文 + 16 概念 + 1 Review）
+- **论文页面**：[[xu-why-steering-works]] — Why Steering Works — 语言模型参数动态的统一视角
+- **链接密度**：论文页面 11 个出链，核心概念页面平均 4-6 个出链
+- **总规模**：528 → 546 页
+
+# 💡 关键洞察
+
+**1. "一切干预皆权重更新"**
+这篇论文的核心贡献在于**统一视角的力量**。传统上，权重微调、LoRA 和激活导向被视为不同范式，但统一公式 $h_{i+1} = (W + m_1\Delta W)h_i + (b + m_2\Delta b)$ 揭示了它们的本质一致——仅在 ΔW 和 Δb 的更新方式上不同。这种统一性不仅是数学上的优雅重组，更催生了统一的动态分析。
+
+**2. 激活流形假说——从经验现象到几何可预测**
+最深刻的洞察是效用退化的机制解释：导向并非"破坏模型"，而是将激活**推出训练形成的流形**。这解释了为什么小 m 线性有效、为什么效用总在 m≈0 处最优。RQ 衰减模型将抽象的几何直觉转化为可拟合的定量形式（R² > 0.95）——这是可解释性工作中少见的高质量理论-实验对接。
+
+**3. 对 AI 安全与控制的影响**
+这篇论文与 wiki 中已有的 [[hyperagents]]、[[clawless-ai-agent-security]]、[[skillopt]] 形成互补：安全性工程常需"控制模型行为"，而本文提供了理解控制效果与代价的**定量语言**。SPLIT 优化目标可直接融入安全导向的训练管线。