Files
myWiki/concepts/preference-utility-analysis.md

1.7 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
PreferenceUtility Analysis 2026-06-01 2026-06-01 concept
steering
evaluation
controllability
raw/papers/xu-why-steering-works-2026.md

PreferenceUtility Analysis偏好-效用分析)

定义

PreferenceUtility 分析是 Xu et al. (2026) 提出的控制效果评估框架,将 LLM 干预的效果分解为两个独立维度,在共享 log-odds 尺度上测量:

P(A_p | q) = P(u | q) \cdot P(p_p | q) P(A_n | q) = P(u | q) \cdot P(p_n | q)

Preference偏好

模型对目标概念的内在倾向,独立于输出是否良好:

  • 公式:\text{PrefOdds}(q) = \log \frac{P(p_p|q)}{P(p_n|q)} = L_n - L_p
  • 关键性质:共享效用 P(u|q) 在似然比中抵消,偏好测量与效用解耦

Utility效用

模型的任务能力——连贯性、指令遵循、格式正确性:

  • 公式:\text{UtilOdds}(q) = \log \frac{P(u|q)}{1-P(u|q)} = \log \frac{e^{-L_p} + e^{-L_n}}{1 - e^{-L_p} - e^{-L_n}}
  • 效用测量与目标概念无关

为什么需要解耦

在受控生成中,偏好增加以效用为代价时,输出常变得不连贯或违反指令——这会混淆输出级评估中的概念信号。解耦后可以独立追踪两者。

统一动态发现

所有干预形式Local Weight、LoRA、Vector在 m 变化时呈现一致的:

  • 偏好动态:线性区 → 过渡区 → 收敛区
  • 效用动态m≈0 附近峰值,随 |m| 增大单调下降

相关概念