SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.6 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Preference Log-Odds

2026-06-01

2026-06-01

concept

steering

evaluation

metrics

raw/papers/xu-why-steering-works-2026.md

Preference Log-Odds（偏好对数几率）

定义

Preference Log-Odds 是 Xu et al. (2026) 引入的度量，在共享 log-odds 尺度上量化 LLM 对目标概念的内在偏好：

\text{PrefOdds}(q) = \log \frac{P(p_p | q)}{P(p_n | q)} = L_n - L_p

其中 (A_p, A_n) 是极性对比示例对，$L_p = -\log P(A_p|q)$，$L_n = -\log P(A_n|q)$。

关键性质

效用无关：共享效用 P(u|q) 在似然比中抵消，PrefOdds 仅测量偏好
与干预乘子的关系：在激活流形框架下，\log\frac{P(p_p)}{1-P(p_p)} = (\alpha_p m + \beta_p)D_p(m) + b_p
拟合质量：RQ 衰减模型拟合 R² > 0.95

三阶段响应

当 PrefOdds 相对于 m 绘图时：

线性区：\alpha_p m 项主导
过渡区：D_p(m) 开始下降
收敛区：D_p(m) 衰减至很低，PrefOdds 趋于稳定

对比：PrefOdds vs UtilOdds

属性	PrefOdds	UtilOdds
公式	`L_n - L_p`	`\log\frac{e^{-L_p}+e^{-L_n}}{1-e^{-L_p}-e^{-L_n}}`
含义	目标概念偏好	任务连贯性
导向方向投影	α_p m（有）	≈0（ω_u ⊥ Δh）
衰减依赖	投影 × 衰减	纯衰减

相关概念

preference-utility-analysis — 度量框架
intervention-multiplier — 控制变量 m
validity-decay — D(m) 衰减
steering-dynamics — PrefOdds 的三阶段行为
xu-why-steering-works — 源论文