62 lines
2.0 KiB
Markdown
62 lines
2.0 KiB
Markdown
---
|
||
title: "SPLIT Steering"
|
||
created: 2026-06-01
|
||
updated: 2026-06-01
|
||
type: concept
|
||
tags: [steering, optimization, controllability]
|
||
sources: [raw/papers/xu-why-steering-works-2026.md]
|
||
---
|
||
|
||
# SPLIT Steering(偏好-效用联合干预)
|
||
|
||
## 定义
|
||
|
||
SPLIT(**S**teering with **P**reference–Uti**L**ity **I**nterven**T**ion)是 Xu et al. (2026) 提出的训练目标,显式优化偏好同时保留效用——直接针对 preference–utility 折衷问题设计。
|
||
|
||
## 目标函数
|
||
|
||
### 效用损失(保持通用能力)
|
||
|
||
$$L_{util} = \lambda_p L_p + \lambda_n L_n$$
|
||
|
||
同时在正负样本上训练,确保模型保持连贯生成能力。
|
||
|
||
### 偏好损失(最大化控制效果)
|
||
|
||
$$L_{pref} = \gamma \cdot \sigma(\theta - (L_n - L_p))$$
|
||
|
||
Hinge-style margin loss:当 $L_n - L_p$(即偏好 log-odds)超过阈值 $\theta$ 时损失为 0,否则推动 gap 增大。
|
||
|
||
- $\sigma(\cdot)$ 是 ReLU
|
||
- $\theta$ 是 margin 阈值
|
||
- $\gamma$ 平衡偏好提升与效用保留
|
||
|
||
### 联合目标
|
||
|
||
$$L = L_{util} + L_{pref}$$
|
||
|
||
## 实验结果
|
||
|
||
在三种干预形式(Local Weight、LoRA、Vector)上,SPLIT 在 Psychopathy、PowerSeeking 和 AxBench 任务上**均优于** SFT 和 RePS 基线:
|
||
|
||
| 模型 | 方法 | Psychopathy Acc(%) | PowerSeeking Concept(0-4) |
|
||
|------|------|-------------------|--------------------------|
|
||
| Gemma-2-9B | SPLIT (Vector) | 99.00 | 3.62 |
|
||
| Gemma-2-9B | SFT (Vector) | 97.00 | 3.30 |
|
||
| Qwen-2.5-7B | SPLIT (Local Weight) | 98.00 | 3.66 |
|
||
|
||
## 设计原理
|
||
|
||
SPLIT 的核心创新是将 preference 和 utility 作为**可分离的优化目标**:
|
||
|
||
- $L_{util}$ 确保模型不离流形太远(preserve utility)
|
||
- $L_{pref}$ 在流形约束内最大化偏好方向对齐(projection gain)
|
||
|
||
## 相关概念
|
||
|
||
- [[preference-utility-analysis]] — SPLIT 的理论基础
|
||
- [[activation-manifold]] — 效用保留的几何解释
|
||
- [[validity-decay]] — SPLIT 试图延迟的退化
|
||
- [[preference-log-odds]] — $L_n - L_p$ 作为优化目标
|
||
- [[xu-why-steering-works]] — 源论文
|