49 lines
1.6 KiB
Markdown
49 lines
1.6 KiB
Markdown
---
|
||
title: "Preference Log-Odds"
|
||
created: 2026-06-01
|
||
updated: 2026-06-01
|
||
type: concept
|
||
tags: [steering, evaluation, metrics]
|
||
sources: [raw/papers/xu-why-steering-works-2026.md]
|
||
---
|
||
|
||
# Preference Log-Odds(偏好对数几率)
|
||
|
||
## 定义
|
||
|
||
Preference Log-Odds 是 Xu et al. (2026) 引入的度量,在共享 log-odds 尺度上量化 LLM 对目标概念的内在偏好:
|
||
|
||
$$\text{PrefOdds}(q) = \log \frac{P(p_p | q)}{P(p_n | q)} = L_n - L_p$$
|
||
|
||
其中 $(A_p, A_n)$ 是极性对比示例对,$L_p = -\log P(A_p|q)$,$L_n = -\log P(A_n|q)$。
|
||
|
||
## 关键性质
|
||
|
||
1. **效用无关**:共享效用 $P(u|q)$ 在似然比中抵消,PrefOdds 仅测量偏好
|
||
2. **与干预乘子的关系**:在激活流形框架下,$\log\frac{P(p_p)}{1-P(p_p)} = (\alpha_p m + \beta_p)D_p(m) + b_p$
|
||
3. **拟合质量**:RQ 衰减模型拟合 R² > 0.95
|
||
|
||
## 三阶段响应
|
||
|
||
当 PrefOdds 相对于 $m$ 绘图时:
|
||
- 线性区:$\alpha_p m$ 项主导
|
||
- 过渡区:$D_p(m)$ 开始下降
|
||
- 收敛区:$D_p(m)$ 衰减至很低,PrefOdds 趋于稳定
|
||
|
||
## 对比:PrefOdds vs UtilOdds
|
||
|
||
| 属性 | PrefOdds | UtilOdds |
|
||
|------|----------|----------|
|
||
| 公式 | $L_n - L_p$ | $\log\frac{e^{-L_p}+e^{-L_n}}{1-e^{-L_p}-e^{-L_n}}$ |
|
||
| 含义 | 目标概念偏好 | 任务连贯性 |
|
||
| 导向方向投影 | α_p m(有) | ≈0(ω_u ⊥ Δh) |
|
||
| 衰减依赖 | 投影 × 衰减 | 纯衰减 |
|
||
|
||
## 相关概念
|
||
|
||
- [[preference-utility-analysis]] — 度量框架
|
||
- [[intervention-multiplier]] — 控制变量 m
|
||
- [[validity-decay]] — D(m) 衰减
|
||
- [[steering-dynamics]] — PrefOdds 的三阶段行为
|
||
- [[xu-why-steering-works]] — 源论文
|