Files
myWiki/concepts/dynamic-weight-updates.md

42 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Dynamic Weight Updates"
created: 2026-06-01
updated: 2026-06-01
type: concept
tags: [steering, llm-dynamics, controllability]
sources: [raw/papers/xu-why-steering-works-2026.md]
---
# Dynamic Weight Updates动态权重更新
## 定义
动态权重更新是 Xu et al. (2026) 提出的统一框架,将 LLM 的多种控制方法——局部权重微调、LoRA 和激活导向——表达为同一仿射变换的实例:
$$h_{i+1} = (W + m_1 \Delta W) h_i + (b + m_2 \Delta b)$$
其中 $\Delta W$ 和 $\Delta b$ 是更新项,$m_1, m_2$ 是标量缩放系数。
## 核心洞察
从激活视角看,所有干预方法等价于向激活添加一个变化项:
$$\Delta h = m_1 \Delta W h_i + m_2 \Delta b$$
三种方法仅在**哪个组件被更新**上有所不同:
- **Local Weight**:同时修改 W 和 b
- **LoRA**:通过低秩因子修改 W
- **Steering Vector**:仅修改 b即仅向激活添加偏置方向
## 缩放系数的作用
引入显式缩放系数 $m_1, m_2$ 扩展了传统公式,使干预强度可以连续调节——这是 preferenceutility 统一分析的核心。
## 相关概念
- [[preference-utility-analysis]] — 基于统一视角的控制效果分析
- [[intervention-multiplier]] — 缩放系数 m
- [[lora]] — 低秩权重更新
- [[activation-steering]] — 偏置形式的动态更新
- [[xu-why-steering-works]] — 源论文