20260617:目前有914 页

This commit is contained in:
2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions

View File

@@ -0,0 +1,47 @@
---
title: "PreferenceUtility Analysis"
created: 2026-06-01
updated: 2026-06-01
type: concept
tags: [steering, evaluation, controllability]
sources: [raw/papers/xu-why-steering-works-2026.md]
---
# PreferenceUtility Analysis偏好-效用分析)
## 定义
PreferenceUtility 分析是 Xu et al. (2026) 提出的控制效果评估框架,将 LLM 干预的效果分解为两个独立维度,在共享 log-odds 尺度上测量:
$$P(A_p | q) = P(u | q) \cdot P(p_p | q)$$
$$P(A_n | q) = P(u | q) \cdot P(p_n | q)$$
## Preference偏好
模型对**目标概念**的内在倾向,独立于输出是否良好:
- 公式:$\text{PrefOdds}(q) = \log \frac{P(p_p|q)}{P(p_n|q)} = L_n - L_p$
- 关键性质:共享效用 $P(u|q)$ 在似然比中抵消,偏好测量与效用解耦
## Utility效用
模型的**任务能力**——连贯性、指令遵循、格式正确性:
- 公式:$\text{UtilOdds}(q) = \log \frac{P(u|q)}{1-P(u|q)} = \log \frac{e^{-L_p} + e^{-L_n}}{1 - e^{-L_p} - e^{-L_n}}$
- 效用测量与目标概念无关
## 为什么需要解耦
在受控生成中,偏好增加以效用为代价时,输出常变得不连贯或违反指令——这会**混淆**输出级评估中的概念信号。解耦后可以独立追踪两者。
## 统一动态发现
所有干预形式Local Weight、LoRA、Vector在 m 变化时呈现一致的:
- 偏好动态:线性区 → 过渡区 → 收敛区
- 效用动态m≈0 附近峰值,随 |m| 增大单调下降
## 相关概念
- [[preference-log-odds]] — PrefOdds 的详细推导
- [[steering-dynamics]] — 统一动态模式
- [[activation-manifold]] — 解释效用退化的机制
- [[split-steering]] — 基于此分析的联合优化方法
- [[xu-why-steering-works]] — 源论文