Files
myWiki/concepts/intervention-multiplier.md

1.4 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Intervention Multiplier 2026-06-01 2026-06-01 concept
steering
controllability
llm-dynamics
raw/papers/xu-why-steering-works-2026.md

Intervention Multiplier干预乘子

定义

干预乘子 $m$(或 $m_1, m_2$)是统一动态权重更新框架中的标量缩放系数,控制干预强度:

h_{i+1} = (W + m_1 \Delta W) h_i + (b + m_2 \Delta b)

核心作用

m 是 Xu et al. (2026) 整个 preferenceutility 分析中的自变量——所有动态行为都是 m 的函数:

  • 偏好 log-odds \approx (\alpha_p m + \beta_p) D_p(m)
  • 效用 log-odds \approx \beta_u D_u(m)
  • 有效性衰减 D(m)

方向不对称性

m 的正负符号 不对称——正方向和负方向的衰减参数 (m_\pm, L_\pm, p_\pm) 不同:

  • m_+m_- 分别对应正/负方向与流形的交点
  • 导向在同一条线上的不同方向可能流形距离不同

实践意义

  • |m| 小:安全操作区——偏好线性增长,效用基本不变
  • |m| 中:折衷区——偏好继续增长,效用开始下降
  • |m| 大:危险区——效用崩溃,偏好不再增长

相关概念