--- title: "Preference–Utility Analysis" created: 2026-06-01 updated: 2026-06-01 type: concept tags: [steering, evaluation, controllability] sources: [raw/papers/xu-why-steering-works-2026.md] --- # Preference–Utility Analysis(偏好-效用分析) ## 定义 Preference–Utility 分析是 Xu et al. (2026) 提出的控制效果评估框架,将 LLM 干预的效果分解为两个独立维度,在共享 log-odds 尺度上测量: $$P(A_p | q) = P(u | q) \cdot P(p_p | q)$$ $$P(A_n | q) = P(u | q) \cdot P(p_n | q)$$ ## Preference(偏好) 模型对**目标概念**的内在倾向,独立于输出是否良好: - 公式:$\text{PrefOdds}(q) = \log \frac{P(p_p|q)}{P(p_n|q)} = L_n - L_p$ - 关键性质:共享效用 $P(u|q)$ 在似然比中抵消,偏好测量与效用解耦 ## Utility(效用) 模型的**任务能力**——连贯性、指令遵循、格式正确性: - 公式:$\text{UtilOdds}(q) = \log \frac{P(u|q)}{1-P(u|q)} = \log \frac{e^{-L_p} + e^{-L_n}}{1 - e^{-L_p} - e^{-L_n}}$ - 效用测量与目标概念无关 ## 为什么需要解耦 在受控生成中,偏好增加以效用为代价时,输出常变得不连贯或违反指令——这会**混淆**输出级评估中的概念信号。解耦后可以独立追踪两者。 ## 统一动态发现 所有干预形式(Local Weight、LoRA、Vector)在 m 变化时呈现一致的: - 偏好动态:线性区 → 过渡区 → 收敛区 - 效用动态:m≈0 附近峰值,随 |m| 增大单调下降 ## 相关概念 - [[preference-log-odds]] — PrefOdds 的详细推导 - [[steering-dynamics]] — 统一动态模式 - [[activation-manifold]] — 解释效用退化的机制 - [[split-steering]] — 基于此分析的联合优化方法 - [[xu-why-steering-works]] — 源论文