Files
myWiki/concepts/split-steering.md

62 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "SPLIT Steering"
created: 2026-06-01
updated: 2026-06-01
type: concept
tags: [steering, optimization, controllability]
sources: [raw/papers/xu-why-steering-works-2026.md]
---
# SPLIT Steering偏好-效用联合干预)
## 定义
SPLIT**S**teering with **P**referenceUti**L**ity **I**nterven**T**ion是 Xu et al. (2026) 提出的训练目标,显式优化偏好同时保留效用——直接针对 preferenceutility 折衷问题设计。
## 目标函数
### 效用损失(保持通用能力)
$$L_{util} = \lambda_p L_p + \lambda_n L_n$$
同时在正负样本上训练,确保模型保持连贯生成能力。
### 偏好损失(最大化控制效果)
$$L_{pref} = \gamma \cdot \sigma(\theta - (L_n - L_p))$$
Hinge-style margin loss当 $L_n - L_p$(即偏好 log-odds超过阈值 $\theta$ 时损失为 0否则推动 gap 增大。
- $\sigma(\cdot)$ 是 ReLU
- $\theta$ 是 margin 阈值
- $\gamma$ 平衡偏好提升与效用保留
### 联合目标
$$L = L_{util} + L_{pref}$$
## 实验结果
在三种干预形式Local Weight、LoRA、VectorSPLIT 在 Psychopathy、PowerSeeking 和 AxBench 任务上**均优于** SFT 和 RePS 基线:
| 模型 | 方法 | Psychopathy Acc(%) | PowerSeeking Concept(0-4) |
|------|------|-------------------|--------------------------|
| Gemma-2-9B | SPLIT (Vector) | 99.00 | 3.62 |
| Gemma-2-9B | SFT (Vector) | 97.00 | 3.30 |
| Qwen-2.5-7B | SPLIT (Local Weight) | 98.00 | 3.66 |
## 设计原理
SPLIT 的核心创新是将 preference 和 utility 作为**可分离的优化目标**
- $L_{util}$ 确保模型不离流形太远preserve utility
- $L_{pref}$ 在流形约束内最大化偏好方向对齐projection gain
## 相关概念
- [[preference-utility-analysis]] — SPLIT 的理论基础
- [[activation-manifold]] — 效用保留的几何解释
- [[validity-decay]] — SPLIT 试图延迟的退化
- [[preference-log-odds]] — $L_n - L_p$ 作为优化目标
- [[xu-why-steering-works]] — 源论文