Files
myWiki/concepts/intervention-multiplier.md

45 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Intervention Multiplier"
created: 2026-06-01
updated: 2026-06-01
type: concept
tags: [steering, controllability, llm-dynamics]
sources: [raw/papers/xu-why-steering-works-2026.md]
---
# Intervention Multiplier干预乘子
## 定义
干预乘子 $m$(或 $m_1, m_2$)是统一动态权重更新框架中的标量缩放系数,控制干预强度:
$$h_{i+1} = (W + m_1 \Delta W) h_i + (b + m_2 \Delta b)$$
## 核心作用
$m$ 是 Xu et al. (2026) 整个 preferenceutility 分析中的**自变量**——所有动态行为都是 $m$ 的函数:
- 偏好 log-odds $\approx (\alpha_p m + \beta_p) D_p(m)$
- 效用 log-odds $\approx \beta_u D_u(m)$
- 有效性衰减 $D(m)$
## 方向不对称性
$m$ 的正负符号 **不对称**——正方向和负方向的衰减参数 $(m_\pm, L_\pm, p_\pm)$ 不同:
- $m_+$ 和 $m_-$ 分别对应正/负方向与流形的交点
- 导向在同一条线上的不同方向可能流形距离不同
## 实践意义
- $|m|$ 小:安全操作区——偏好线性增长,效用基本不变
- $|m|$ 中:折衷区——偏好继续增长,效用开始下降
- $|m|$ 大:危险区——效用崩溃,偏好不再增长
## 相关概念
- [[dynamic-weight-updates]] — 统一公式
- [[steering-dynamics]] — $m$ 驱动的三阶段动态
- [[validity-decay]] — $D(m)$ 衰减函数
- [[preference-log-odds]] — $m$ 的依赖形式
- [[xu-why-steering-works]] — 源论文