Files
myWiki/concepts/steering-dynamics.md

1.8 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Steering Dynamics 2026-06-01 2026-06-01 concept
steering
llm-dynamics
controllability
raw/papers/xu-why-steering-works-2026.md

Steering Dynamics导向动态

定义

导向动态描述 LLM 控制干预下preference 和 utility 如何随干预乘子 m 变化。Xu et al. (2026) 发现所有干预形式呈现统一的三阶段模式

三阶段偏好动态

当 PrefOdds 相对于 m 绘图时:

  1. 线性区|m| 小Preference log-odds 随 m 近似线性增长——与 Bigelow et al. (2025) 的发现一致
  2. 过渡区:增长趋势明显变化,线性关系破裂
  3. 收敛区|m| 大):曲线平坦化、趋于稳定——D(m) 衰减主导

效用动态

  • 效用 log-odds 在 m \approx 0 附近达到峰值
  • 随 |m| 增大单调下降
  • 下降速率在正负方向可能不对称(取决于流形交点 $m_\pm$

统一性

所有三种干预形式Local Weight、LoRA、Vector在不同模型Gemma-2-9B、Qwen-2.5-7B和任务上呈现高度相似的整体曲线形状——这是统一动态权重框架有效性的强证据。

三阶段的机制解释(来自激活流形视角)

阶段 激活流形解释
线性区 激活仍在流形邻域内,$D(m) \approx 1$,偏好仅由投影 \alpha_p m 决定
过渡区 激活开始显著偏离流形,D(m) 下降明显
收敛区 D(m) 衰减至很低,即使继续增大 m 也无法再推高偏好

相关概念