myWiki/concepts/preference-utility-analysis.md

---
title: "Preference–Utility Analysis"
created: 2026-06-01
updated: 2026-06-01
type: concept
tags: [steering, evaluation, controllability]
sources: [raw/papers/xu-why-steering-works-2026.md]
---

# Preference–Utility Analysis（偏好-效用分析）

## 定义

Preference–Utility 分析是 Xu et al. (2026) 提出的控制效果评估框架，将 LLM 干预的效果分解为两个独立维度，在共享 log-odds 尺度上测量：

$$P(A_p | q) = P(u | q) \cdot P(p_p | q)$$
$$P(A_n | q) = P(u | q) \cdot P(p_n | q)$$

## Preference（偏好）

模型对**目标概念**的内在倾向，独立于输出是否良好：
- 公式：$\text{PrefOdds}(q) = \log \frac{P(p_p|q)}{P(p_n|q)} = L_n - L_p$
- 关键性质：共享效用 $P(u|q)$ 在似然比中抵消，偏好测量与效用解耦

## Utility（效用）

模型的**任务能力**——连贯性、指令遵循、格式正确性：
- 公式：$\text{UtilOdds}(q) = \log \frac{P(u|q)}{1-P(u|q)} = \log \frac{e^{-L_p} + e^{-L_n}}{1 - e^{-L_p} - e^{-L_n}}$
- 效用测量与目标概念无关

## 为什么需要解耦

在受控生成中，偏好增加以效用为代价时，输出常变得不连贯或违反指令——这会**混淆**输出级评估中的概念信号。解耦后可以独立追踪两者。

## 统一动态发现

所有干预形式（Local Weight、LoRA、Vector）在 m 变化时呈现一致的：
- 偏好动态：线性区 → 过渡区 → 收敛区
- 效用动态：m≈0 附近峰值，随 |m| 增大单调下降

## 相关概念

- [[preference-log-odds]] — PrefOdds 的详细推导
- [[steering-dynamics]] — 统一动态模式
- [[activation-manifold]] — 解释效用退化的机制
- [[split-steering]] — 基于此分析的联合优化方法
- [[xu-why-steering-works]] — 源论文