1.7 KiB
1.7 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| Preference–Utility Analysis | 2026-06-01 | 2026-06-01 | concept |
|
|
Preference–Utility Analysis(偏好-效用分析)
定义
Preference–Utility 分析是 Xu et al. (2026) 提出的控制效果评估框架,将 LLM 干预的效果分解为两个独立维度,在共享 log-odds 尺度上测量:
P(A_p | q) = P(u | q) \cdot P(p_p | q)
P(A_n | q) = P(u | q) \cdot P(p_n | q)
Preference(偏好)
模型对目标概念的内在倾向,独立于输出是否良好:
- 公式:
\text{PrefOdds}(q) = \log \frac{P(p_p|q)}{P(p_n|q)} = L_n - L_p - 关键性质:共享效用
P(u|q)在似然比中抵消,偏好测量与效用解耦
Utility(效用)
模型的任务能力——连贯性、指令遵循、格式正确性:
- 公式:
\text{UtilOdds}(q) = \log \frac{P(u|q)}{1-P(u|q)} = \log \frac{e^{-L_p} + e^{-L_n}}{1 - e^{-L_p} - e^{-L_n}} - 效用测量与目标概念无关
为什么需要解耦
在受控生成中,偏好增加以效用为代价时,输出常变得不连贯或违反指令——这会混淆输出级评估中的概念信号。解耦后可以独立追踪两者。
统一动态发现
所有干预形式(Local Weight、LoRA、Vector)在 m 变化时呈现一致的:
- 偏好动态:线性区 → 过渡区 → 收敛区
- 效用动态:m≈0 附近峰值,随 |m| 增大单调下降
相关概念
- preference-log-odds — PrefOdds 的详细推导
- steering-dynamics — 统一动态模式
- activation-manifold — 解释效用退化的机制
- split-steering — 基于此分析的联合优化方法
- xu-why-steering-works — 源论文