SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.4 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Intervention Multiplier

2026-06-01

2026-06-01

concept

steering

controllability

llm-dynamics

raw/papers/xu-why-steering-works-2026.md

Intervention Multiplier（干预乘子）

定义

干预乘子 $m$（或 $m_1, m_2$）是统一动态权重更新框架中的标量缩放系数，控制干预强度：

h_{i+1} = (W + m_1 \Delta W) h_i + (b + m_2 \Delta b)

核心作用

m 是 Xu et al. (2026) 整个 preference–utility 分析中的自变量——所有动态行为都是 m 的函数：

偏好 log-odds \approx (\alpha_p m + \beta_p) D_p(m)
效用 log-odds \approx \beta_u D_u(m)
有效性衰减 D(m)

方向不对称性

m 的正负符号 不对称——正方向和负方向的衰减参数 (m_\pm, L_\pm, p_\pm) 不同：

m_+ 和 m_- 分别对应正/负方向与流形的交点
导向在同一条线上的不同方向可能流形距离不同

实践意义

|m| 小：安全操作区——偏好线性增长，效用基本不变
|m| 中：折衷区——偏好继续增长，效用开始下降
|m| 大：危险区——效用崩溃，偏好不再增长

相关概念

dynamic-weight-updates — 统一公式
steering-dynamics — m 驱动的三阶段动态
validity-decay — D(m) 衰减函数
preference-log-odds — m 的依赖形式
xu-why-steering-works — 源论文