1.2 KiB
1.2 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| Model Steering | 2026-06-01 | 2026-06-01 | concept |
|
|
Model Steering(模型导向控制)
占位符页面 — 关于 LLM 导向控制的更广泛文献
概述
Model Steering 泛指在推理时通过修改模型内部表示或参数来控制 LLM 行为的技术,包括但不限于:
- 激活导向 (activation-steering):向隐藏状态添加方向向量
- 参数干预:局部权重微调、LoRA (lora) 适配
- 推理时对齐:通过系统提示或上下文控制
统一视角
Xu et al. (2026) 的 dynamic-weight-updates 框架将所有方法统一为动态权重更新,揭示了它们共享的 preference-utility-analysis 规律。
核心挑战
- 偏好-效用折衷:更强控制 → 更高偏好 + 更低效用
- 方向选择:如何找到最优的
\Delta W/\Delta b - 强度调节:
m的最佳取值依赖于具体任务