Files
myWiki/concepts/dynamic-weight-updates.md

1.4 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Dynamic Weight Updates 2026-06-01 2026-06-01 concept
steering
llm-dynamics
controllability
raw/papers/xu-why-steering-works-2026.md

Dynamic Weight Updates动态权重更新

定义

动态权重更新是 Xu et al. (2026) 提出的统一框架,将 LLM 的多种控制方法——局部权重微调、LoRA 和激活导向——表达为同一仿射变换的实例:

h_{i+1} = (W + m_1 \Delta W) h_i + (b + m_2 \Delta b)

其中 \Delta W\Delta b 是更新项,m_1, m_2 是标量缩放系数。

核心洞察

从激活视角看,所有干预方法等价于向激活添加一个变化项:

\Delta h = m_1 \Delta W h_i + m_2 \Delta b

三种方法仅在哪个组件被更新上有所不同:

  • Local Weight:同时修改 W 和 b
  • LoRA:通过低秩因子修改 W
  • Steering Vector:仅修改 b即仅向激活添加偏置方向

缩放系数的作用

引入显式缩放系数 m_1, m_2 扩展了传统公式,使干预强度可以连续调节——这是 preferenceutility 统一分析的核心。

相关概念