Preference–Utility Analysis（偏好-效用分析）

定义

Preference–Utility 分析是 Xu et al. (2026) 提出的控制效果评估框架，将 LLM 干预的效果分解为两个独立维度，在共享 log-odds 尺度上测量：

P(A_p | q) = P(u | q) \cdot P(p_p | q) P(A_n | q) = P(u | q) \cdot P(p_n | q)

模型对目标概念的内在倾向，独立于输出是否良好：

模型的任务能力——连贯性、指令遵循、格式正确性：

公式：\text{UtilOdds}(q) = \log \frac{P(u|q)}{1-P(u|q)} = \log \frac{e^{-L_p} + e^{-L_n}}{1 - e^{-L_p} - e^{-L_n}}
效用测量与目标概念无关

在受控生成中，偏好增加以效用为代价时，输出常变得不连贯或违反指令——这会混淆输出级评估中的概念信号。解耦后可以独立追踪两者。

所有干预形式（Local Weight、LoRA、Vector）在 m 变化时呈现一致的：