20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/intervention-multiplier.md
+++ b/concepts/intervention-multiplier.md
@@ -0,0 +1,44 @@
+---
+title: "Intervention Multiplier"
+created: 2026-06-01
+updated: 2026-06-01
+type: concept
+tags: [steering, controllability, llm-dynamics]
+sources: [raw/papers/xu-why-steering-works-2026.md]
+---
+
+# Intervention Multiplier（干预乘子）
+
+## 定义
+
+干预乘子 $m$（或 $m_1, m_2$）是统一动态权重更新框架中的标量缩放系数，控制干预强度：
+
+$$h_{i+1} = (W + m_1 \Delta W) h_i + (b + m_2 \Delta b)$$
+
+## 核心作用
+
+$m$ 是 Xu et al. (2026) 整个 preference–utility 分析中的**自变量**——所有动态行为都是 $m$ 的函数：
+
+- 偏好 log-odds $\approx (\alpha_p m + \beta_p) D_p(m)$
+- 效用 log-odds $\approx \beta_u D_u(m)$
+- 有效性衰减 $D(m)$
+
+## 方向不对称性
+
+$m$ 的正负符号 **不对称**——正方向和负方向的衰减参数 $(m_\pm, L_\pm, p_\pm)$ 不同：
+- $m_+$ 和 $m_-$ 分别对应正/负方向与流形的交点
+- 导向在同一条线上的不同方向可能流形距离不同
+
+## 实践意义
+
+- $|m|$ 小：安全操作区——偏好线性增长，效用基本不变
+- $|m|$ 中：折衷区——偏好继续增长，效用开始下降
+- $|m|$ 大：危险区——效用崩溃，偏好不再增长
+
+## 相关概念
+
+- [[dynamic-weight-updates]] — 统一公式
+- [[steering-dynamics]] — $m$ 驱动的三阶段动态
+- [[validity-decay]] — $D(m)$ 衰减函数
+- [[preference-log-odds]] — $m$ 的依赖形式
+- [[xu-why-steering-works]] — 源论文