SPLIT Steering（偏好-效用联合干预）

定义

SPLIT（Steering with Preference–UtiLity IntervenTion）是 Xu et al. (2026) 提出的训练目标，显式优化偏好同时保留效用——直接针对 preference–utility 折衷问题设计。

L_{util} = \lambda_p L_p + \lambda_n L_n

同时在正负样本上训练，确保模型保持连贯生成能力。

L_{pref} = \gamma \cdot \sigma(\theta - (L_n - L_p))

Hinge-style margin loss：当 $L_n - L_p$（即偏好 log-odds）超过阈值 \theta 时损失为 0，否则推动 gap 增大。

L = L_{util} + L_{pref}

在三种干预形式（Local Weight、LoRA、Vector）上，SPLIT 在 Psychopathy、PowerSeeking 和 AxBench 任务上均优于 SFT 和 RePS 基线：

模型	方法	Psychopathy Acc(%)	PowerSeeking Concept(0-4)
Gemma-2-9B	SPLIT (Vector)	99.00	3.62
Gemma-2-9B	SFT (Vector)	97.00	3.30
Qwen-2.5-7B	SPLIT (Local Weight)	98.00	3.66

SPLIT 的核心创新是将 preference 和 utility 作为可分离的优化目标：