1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| Preference Log-Odds | 2026-06-01 | 2026-06-01 | concept |
|
|
Preference Log-Odds(偏好对数几率)
定义
Preference Log-Odds 是 Xu et al. (2026) 引入的度量,在共享 log-odds 尺度上量化 LLM 对目标概念的内在偏好:
\text{PrefOdds}(q) = \log \frac{P(p_p | q)}{P(p_n | q)} = L_n - L_p
其中 (A_p, A_n) 是极性对比示例对,$L_p = -\log P(A_p|q)$,$L_n = -\log P(A_n|q)$。
关键性质
- 效用无关:共享效用
P(u|q)在似然比中抵消,PrefOdds 仅测量偏好 - 与干预乘子的关系:在激活流形框架下,
\log\frac{P(p_p)}{1-P(p_p)} = (\alpha_p m + \beta_p)D_p(m) + b_p - 拟合质量:RQ 衰减模型拟合 R² > 0.95
三阶段响应
当 PrefOdds 相对于 m 绘图时:
- 线性区:
\alpha_p m项主导 - 过渡区:
D_p(m)开始下降 - 收敛区:
D_p(m)衰减至很低,PrefOdds 趋于稳定
对比:PrefOdds vs UtilOdds
| 属性 | PrefOdds | UtilOdds |
|---|---|---|
| 公式 | L_n - L_p |
\log\frac{e^{-L_p}+e^{-L_n}}{1-e^{-L_p}-e^{-L_n}} |
| 含义 | 目标概念偏好 | 任务连贯性 |
| 导向方向投影 | α_p m(有) | ≈0(ω_u ⊥ Δh) |
| 衰减依赖 | 投影 × 衰减 | 纯衰减 |
相关概念
- preference-utility-analysis — 度量框架
- intervention-multiplier — 控制变量 m
- validity-decay — D(m) 衰减
- steering-dynamics — PrefOdds 的三阶段行为
- xu-why-steering-works — 源论文