20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/preference-utility-analysis.md
+++ b/concepts/preference-utility-analysis.md
@@ -0,0 +1,47 @@
+---
+title: "Preference–Utility Analysis"
+created: 2026-06-01
+updated: 2026-06-01
+type: concept
+tags: [steering, evaluation, controllability]
+sources: [raw/papers/xu-why-steering-works-2026.md]
+---
+
+# Preference–Utility Analysis（偏好-效用分析）
+
+## 定义
+
+Preference–Utility 分析是 Xu et al. (2026) 提出的控制效果评估框架，将 LLM 干预的效果分解为两个独立维度，在共享 log-odds 尺度上测量：
+
+$$P(A_p | q) = P(u | q) \cdot P(p_p | q)$$
+$$P(A_n | q) = P(u | q) \cdot P(p_n | q)$$
+
+## Preference（偏好）
+
+模型对**目标概念**的内在倾向，独立于输出是否良好：
+- 公式：$\text{PrefOdds}(q) = \log \frac{P(p_p|q)}{P(p_n|q)} = L_n - L_p$
+- 关键性质：共享效用 $P(u|q)$ 在似然比中抵消，偏好测量与效用解耦
+
+## Utility（效用）
+
+模型的**任务能力**——连贯性、指令遵循、格式正确性：
+- 公式：$\text{UtilOdds}(q) = \log \frac{P(u|q)}{1-P(u|q)} = \log \frac{e^{-L_p} + e^{-L_n}}{1 - e^{-L_p} - e^{-L_n}}$
+- 效用测量与目标概念无关
+
+## 为什么需要解耦
+
+在受控生成中，偏好增加以效用为代价时，输出常变得不连贯或违反指令——这会**混淆**输出级评估中的概念信号。解耦后可以独立追踪两者。
+
+## 统一动态发现
+
+所有干预形式（Local Weight、LoRA、Vector）在 m 变化时呈现一致的：
+- 偏好动态：线性区 → 过渡区 → 收敛区
+- 效用动态：m≈0 附近峰值，随 |m| 增大单调下降
+
+## 相关概念
+
+- [[preference-log-odds]] — PrefOdds 的详细推导
+- [[steering-dynamics]] — 统一动态模式
+- [[activation-manifold]] — 解释效用退化的机制
+- [[split-steering]] — 基于此分析的联合优化方法
+- [[xu-why-steering-works]] — 源论文