Files
myWiki/concepts/preference-utility-analysis.md

48 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "PreferenceUtility Analysis"
created: 2026-06-01
updated: 2026-06-01
type: concept
tags: [steering, evaluation, controllability]
sources: [raw/papers/xu-why-steering-works-2026.md]
---
# PreferenceUtility Analysis偏好-效用分析)
## 定义
PreferenceUtility 分析是 Xu et al. (2026) 提出的控制效果评估框架,将 LLM 干预的效果分解为两个独立维度,在共享 log-odds 尺度上测量:
$$P(A_p | q) = P(u | q) \cdot P(p_p | q)$$
$$P(A_n | q) = P(u | q) \cdot P(p_n | q)$$
## Preference偏好
模型对**目标概念**的内在倾向,独立于输出是否良好:
- 公式:$\text{PrefOdds}(q) = \log \frac{P(p_p|q)}{P(p_n|q)} = L_n - L_p$
- 关键性质:共享效用 $P(u|q)$ 在似然比中抵消,偏好测量与效用解耦
## Utility效用
模型的**任务能力**——连贯性、指令遵循、格式正确性:
- 公式:$\text{UtilOdds}(q) = \log \frac{P(u|q)}{1-P(u|q)} = \log \frac{e^{-L_p} + e^{-L_n}}{1 - e^{-L_p} - e^{-L_n}}$
- 效用测量与目标概念无关
## 为什么需要解耦
在受控生成中,偏好增加以效用为代价时,输出常变得不连贯或违反指令——这会**混淆**输出级评估中的概念信号。解耦后可以独立追踪两者。
## 统一动态发现
所有干预形式Local Weight、LoRA、Vector在 m 变化时呈现一致的:
- 偏好动态:线性区 → 过渡区 → 收敛区
- 效用动态m≈0 附近峰值,随 |m| 增大单调下降
## 相关概念
- [[preference-log-odds]] — PrefOdds 的详细推导
- [[steering-dynamics]] — 统一动态模式
- [[activation-manifold]] — 解释效用退化的机制
- [[split-steering]] — 基于此分析的联合优化方法
- [[xu-why-steering-works]] — 源论文