48 lines
1.7 KiB
Markdown
48 lines
1.7 KiB
Markdown
---
|
||
title: "Preference–Utility Analysis"
|
||
created: 2026-06-01
|
||
updated: 2026-06-01
|
||
type: concept
|
||
tags: [steering, evaluation, controllability]
|
||
sources: [raw/papers/xu-why-steering-works-2026.md]
|
||
---
|
||
|
||
# Preference–Utility Analysis(偏好-效用分析)
|
||
|
||
## 定义
|
||
|
||
Preference–Utility 分析是 Xu et al. (2026) 提出的控制效果评估框架,将 LLM 干预的效果分解为两个独立维度,在共享 log-odds 尺度上测量:
|
||
|
||
$$P(A_p | q) = P(u | q) \cdot P(p_p | q)$$
|
||
$$P(A_n | q) = P(u | q) \cdot P(p_n | q)$$
|
||
|
||
## Preference(偏好)
|
||
|
||
模型对**目标概念**的内在倾向,独立于输出是否良好:
|
||
- 公式:$\text{PrefOdds}(q) = \log \frac{P(p_p|q)}{P(p_n|q)} = L_n - L_p$
|
||
- 关键性质:共享效用 $P(u|q)$ 在似然比中抵消,偏好测量与效用解耦
|
||
|
||
## Utility(效用)
|
||
|
||
模型的**任务能力**——连贯性、指令遵循、格式正确性:
|
||
- 公式:$\text{UtilOdds}(q) = \log \frac{P(u|q)}{1-P(u|q)} = \log \frac{e^{-L_p} + e^{-L_n}}{1 - e^{-L_p} - e^{-L_n}}$
|
||
- 效用测量与目标概念无关
|
||
|
||
## 为什么需要解耦
|
||
|
||
在受控生成中,偏好增加以效用为代价时,输出常变得不连贯或违反指令——这会**混淆**输出级评估中的概念信号。解耦后可以独立追踪两者。
|
||
|
||
## 统一动态发现
|
||
|
||
所有干预形式(Local Weight、LoRA、Vector)在 m 变化时呈现一致的:
|
||
- 偏好动态:线性区 → 过渡区 → 收敛区
|
||
- 效用动态:m≈0 附近峰值,随 |m| 增大单调下降
|
||
|
||
## 相关概念
|
||
|
||
- [[preference-log-odds]] — PrefOdds 的详细推导
|
||
- [[steering-dynamics]] — 统一动态模式
|
||
- [[activation-manifold]] — 解释效用退化的机制
|
||
- [[split-steering]] — 基于此分析的联合优化方法
|
||
- [[xu-why-steering-works]] — 源论文
|