1.8 KiB
1.8 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| Steering Dynamics | 2026-06-01 | 2026-06-01 | concept |
|
|
Steering Dynamics(导向动态)
定义
导向动态描述 LLM 控制干预下,preference 和 utility 如何随干预乘子 m 变化。Xu et al. (2026) 发现所有干预形式呈现统一的三阶段模式。
三阶段偏好动态
当 PrefOdds 相对于 m 绘图时:
- 线性区(|m| 小):Preference log-odds 随
m近似线性增长——与 Bigelow et al. (2025) 的发现一致 - 过渡区:增长趋势明显变化,线性关系破裂
- 收敛区(|m| 大):曲线平坦化、趋于稳定——
D(m)衰减主导
效用动态
- 效用 log-odds 在
m \approx 0附近达到峰值 - 随 |m| 增大单调下降
- 下降速率在正负方向可能不对称(取决于流形交点 $m_\pm$)
统一性
所有三种干预形式(Local Weight、LoRA、Vector)在不同模型(Gemma-2-9B、Qwen-2.5-7B)和任务上呈现高度相似的整体曲线形状——这是统一动态权重框架有效性的强证据。
三阶段的机制解释(来自激活流形视角)
| 阶段 | 激活流形解释 |
|---|---|
| 线性区 | 激活仍在流形邻域内,$D(m) \approx 1$,偏好仅由投影 \alpha_p m 决定 |
| 过渡区 | 激活开始显著偏离流形,D(m) 下降明显 |
| 收敛区 | D(m) 衰减至很低,即使继续增大 m 也无法再推高偏好 |
相关概念
- activation-manifold — 驱动动态的几何机制
- validity-decay —
D(m)的形式化 - preference-utility-analysis — 动态的度量框架
- intervention-multiplier — 控制变量
m - xu-why-steering-works — 源论文