45 lines
1.4 KiB
Markdown
45 lines
1.4 KiB
Markdown
---
|
||
title: "Intervention Multiplier"
|
||
created: 2026-06-01
|
||
updated: 2026-06-01
|
||
type: concept
|
||
tags: [steering, controllability, llm-dynamics]
|
||
sources: [raw/papers/xu-why-steering-works-2026.md]
|
||
---
|
||
|
||
# Intervention Multiplier(干预乘子)
|
||
|
||
## 定义
|
||
|
||
干预乘子 $m$(或 $m_1, m_2$)是统一动态权重更新框架中的标量缩放系数,控制干预强度:
|
||
|
||
$$h_{i+1} = (W + m_1 \Delta W) h_i + (b + m_2 \Delta b)$$
|
||
|
||
## 核心作用
|
||
|
||
$m$ 是 Xu et al. (2026) 整个 preference–utility 分析中的**自变量**——所有动态行为都是 $m$ 的函数:
|
||
|
||
- 偏好 log-odds $\approx (\alpha_p m + \beta_p) D_p(m)$
|
||
- 效用 log-odds $\approx \beta_u D_u(m)$
|
||
- 有效性衰减 $D(m)$
|
||
|
||
## 方向不对称性
|
||
|
||
$m$ 的正负符号 **不对称**——正方向和负方向的衰减参数 $(m_\pm, L_\pm, p_\pm)$ 不同:
|
||
- $m_+$ 和 $m_-$ 分别对应正/负方向与流形的交点
|
||
- 导向在同一条线上的不同方向可能流形距离不同
|
||
|
||
## 实践意义
|
||
|
||
- $|m|$ 小:安全操作区——偏好线性增长,效用基本不变
|
||
- $|m|$ 中:折衷区——偏好继续增长,效用开始下降
|
||
- $|m|$ 大:危险区——效用崩溃,偏好不再增长
|
||
|
||
## 相关概念
|
||
|
||
- [[dynamic-weight-updates]] — 统一公式
|
||
- [[steering-dynamics]] — $m$ 驱动的三阶段动态
|
||
- [[validity-decay]] — $D(m)$ 衰减函数
|
||
- [[preference-log-odds]] — $m$ 的依赖形式
|
||
- [[xu-why-steering-works]] — 源论文
|