Files
myWiki/concepts/split-steering.md

2.0 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
SPLIT Steering 2026-06-01 2026-06-01 concept
steering
optimization
controllability
raw/papers/xu-why-steering-works-2026.md

SPLIT Steering偏好-效用联合干预)

定义

SPLITSteering with PreferenceUtiLity IntervenTion是 Xu et al. (2026) 提出的训练目标,显式优化偏好同时保留效用——直接针对 preferenceutility 折衷问题设计。

目标函数

效用损失(保持通用能力)

L_{util} = \lambda_p L_p + \lambda_n L_n

同时在正负样本上训练,确保模型保持连贯生成能力。

偏好损失(最大化控制效果)

L_{pref} = \gamma \cdot \sigma(\theta - (L_n - L_p))

Hinge-style margin loss当 $L_n - L_p$(即偏好 log-odds超过阈值 \theta 时损失为 0否则推动 gap 增大。

  • \sigma(\cdot) 是 ReLU
  • \theta 是 margin 阈值
  • \gamma 平衡偏好提升与效用保留

联合目标

L = L_{util} + L_{pref}

实验结果

在三种干预形式Local Weight、LoRA、VectorSPLIT 在 Psychopathy、PowerSeeking 和 AxBench 任务上均优于 SFT 和 RePS 基线:

模型 方法 Psychopathy Acc(%) PowerSeeking Concept(0-4)
Gemma-2-9B SPLIT (Vector) 99.00 3.62
Gemma-2-9B SFT (Vector) 97.00 3.30
Qwen-2.5-7B SPLIT (Local Weight) 98.00 3.66

设计原理

SPLIT 的核心创新是将 preference 和 utility 作为可分离的优化目标

  • L_{util} 确保模型不离流形太远preserve utility
  • L_{pref} 在流形约束内最大化偏好方向对齐projection gain

相关概念