Files
myWiki/concepts/steering-dynamics.md

48 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Steering Dynamics"
created: 2026-06-01
updated: 2026-06-01
type: concept
tags: [steering, llm-dynamics, controllability]
sources: [raw/papers/xu-why-steering-works-2026.md]
---
# Steering Dynamics导向动态
## 定义
导向动态描述 LLM 控制干预下preference 和 utility 如何随干预乘子 $m$ 变化。Xu et al. (2026) 发现所有干预形式呈现统一的**三阶段模式**。
## 三阶段偏好动态
当 PrefOdds 相对于 $m$ 绘图时:
1. **线性区**|m| 小Preference log-odds 随 $m$ 近似线性增长——与 Bigelow et al. (2025) 的发现一致
2. **过渡区**:增长趋势明显变化,线性关系破裂
3. **收敛区**|m| 大):曲线平坦化、趋于稳定——$D(m)$ 衰减主导
## 效用动态
- 效用 log-odds 在 $m \approx 0$ 附近达到**峰值**
- 随 |m| 增大单调下降
- 下降速率在正负方向可能不对称(取决于流形交点 $m_\pm$
## 统一性
所有三种干预形式Local Weight、LoRA、Vector在不同模型Gemma-2-9B、Qwen-2.5-7B和任务上呈现**高度相似的整体曲线形状**——这是统一动态权重框架有效性的强证据。
## 三阶段的机制解释(来自激活流形视角)
| 阶段 | 激活流形解释 |
|------|-----------|
| 线性区 | 激活仍在流形邻域内,$D(m) \approx 1$,偏好仅由投影 $\alpha_p m$ 决定 |
| 过渡区 | 激活开始显著偏离流形,$D(m)$ 下降明显 |
| 收敛区 | $D(m)$ 衰减至很低,即使继续增大 $m$ 也无法再推高偏好 |
## 相关概念
- [[activation-manifold]] — 驱动动态的几何机制
- [[validity-decay]] — $D(m)$ 的形式化
- [[preference-utility-analysis]] — 动态的度量框架
- [[intervention-multiplier]] — 控制变量 $m$
- [[xu-why-steering-works]] — 源论文