20260617:目前有914 页
This commit is contained in:
47
concepts/steering-dynamics.md
Normal file
47
concepts/steering-dynamics.md
Normal file
@@ -0,0 +1,47 @@
|
||||
---
|
||||
title: "Steering Dynamics"
|
||||
created: 2026-06-01
|
||||
updated: 2026-06-01
|
||||
type: concept
|
||||
tags: [steering, llm-dynamics, controllability]
|
||||
sources: [raw/papers/xu-why-steering-works-2026.md]
|
||||
---
|
||||
|
||||
# Steering Dynamics(导向动态)
|
||||
|
||||
## 定义
|
||||
|
||||
导向动态描述 LLM 控制干预下,preference 和 utility 如何随干预乘子 $m$ 变化。Xu et al. (2026) 发现所有干预形式呈现统一的**三阶段模式**。
|
||||
|
||||
## 三阶段偏好动态
|
||||
|
||||
当 PrefOdds 相对于 $m$ 绘图时:
|
||||
1. **线性区**(|m| 小):Preference log-odds 随 $m$ 近似线性增长——与 Bigelow et al. (2025) 的发现一致
|
||||
2. **过渡区**:增长趋势明显变化,线性关系破裂
|
||||
3. **收敛区**(|m| 大):曲线平坦化、趋于稳定——$D(m)$ 衰减主导
|
||||
|
||||
## 效用动态
|
||||
|
||||
- 效用 log-odds 在 $m \approx 0$ 附近达到**峰值**
|
||||
- 随 |m| 增大单调下降
|
||||
- 下降速率在正负方向可能不对称(取决于流形交点 $m_\pm$)
|
||||
|
||||
## 统一性
|
||||
|
||||
所有三种干预形式(Local Weight、LoRA、Vector)在不同模型(Gemma-2-9B、Qwen-2.5-7B)和任务上呈现**高度相似的整体曲线形状**——这是统一动态权重框架有效性的强证据。
|
||||
|
||||
## 三阶段的机制解释(来自激活流形视角)
|
||||
|
||||
| 阶段 | 激活流形解释 |
|
||||
|------|-----------|
|
||||
| 线性区 | 激活仍在流形邻域内,$D(m) \approx 1$,偏好仅由投影 $\alpha_p m$ 决定 |
|
||||
| 过渡区 | 激活开始显著偏离流形,$D(m)$ 下降明显 |
|
||||
| 收敛区 | $D(m)$ 衰减至很低,即使继续增大 $m$ 也无法再推高偏好 |
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[activation-manifold]] — 驱动动态的几何机制
|
||||
- [[validity-decay]] — $D(m)$ 的形式化
|
||||
- [[preference-utility-analysis]] — 动态的度量框架
|
||||
- [[intervention-multiplier]] — 控制变量 $m$
|
||||
- [[xu-why-steering-works]] — 源论文
|
||||
Reference in New Issue
Block a user