SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.4 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Dynamic Weight Updates

2026-06-01

2026-06-01

concept

steering

llm-dynamics

controllability

raw/papers/xu-why-steering-works-2026.md

Dynamic Weight Updates（动态权重更新）

定义

动态权重更新是 Xu et al. (2026) 提出的统一框架，将 LLM 的多种控制方法——局部权重微调、LoRA 和激活导向——表达为同一仿射变换的实例：

h_{i+1} = (W + m_1 \Delta W) h_i + (b + m_2 \Delta b)

其中 \Delta W 和 \Delta b 是更新项，m_1, m_2 是标量缩放系数。

核心洞察

从激活视角看，所有干预方法等价于向激活添加一个变化项：

\Delta h = m_1 \Delta W h_i + m_2 \Delta b

三种方法仅在哪个组件被更新上有所不同：

Local Weight：同时修改 W 和 b
LoRA：通过低秩因子修改 W
Steering Vector：仅修改 b（即仅向激活添加偏置方向）

缩放系数的作用

引入显式缩放系数 m_1, m_2 扩展了传统公式，使干预强度可以连续调节——这是 preference–utility 统一分析的核心。

相关概念

preference-utility-analysis — 基于统一视角的控制效果分析
intervention-multiplier — 缩放系数 m
lora — 低秩权重更新
activation-steering — 偏置形式的动态更新
xu-why-steering-works — 源论文