Gambling Gibbs

Gambling Gibbs 是 Large Language Gibbs 框架中的一种判别式核变体，通过将接受/拒绝决策转化为**赌博（gamble）**来利用 LLM 的判别能力。与 barker-gibbs 不同，它不需要 LLM 输出校准过的概率——只需要一个二值的"下注/不下注"决策。

核心机制

提议：从均匀分布中抽取候选值 X_i'
定价：随机采样赌注金额 V ~ U[0, 100]
展示：向 LLM 展示：（a）当前值 + 候选值，（b）如果候选值"更合理"，下注 $V 将获得 $100
决策：LLM 决定是否下注（greedy decoding 单 token）
接受：如果 LLM 下注 → 接受候选值

理论基础

LLM 应该只在以下条件下下注：

V/100 < q^*(X_{-i}, X_i') / (q^*(X_{-i}, X_i) + q^*(X_{-i}, X_i'))

这恰好恢复 Barker 接受概率。关键洞察：LLM 的内部信念关于 plausibility 不需要被显式校准——可以通过赌博行为隐式地引出。

优势

无需校准概率：仅需二值决策，使用 greedy decoding
避免概率失真：指令微调模型的生成概率可能不可靠，但二值判断通常更鲁棒
理论保证：在合理假设下，接受概率等价于 Barker Gibbs

与 Barker Gibbs 对比

维度	Barker Gibbs	Gambling Gibbs
输出格式	偏好选择（Option 1/2）	赌博决策（Bet/No Bet）
概率要求	需要 log-prob 计算	仅需 greedy token
理论基础	Barker 规则	期望收益最大化
解码方式	需要概率输出	greedy decoding

参考

large-language-gibbs — 提出 Gambling Gibbs 的论文
barker-gibbs — 相关判别式核
llm-mcmc

1.9 KiB Raw Blame History Unescape Escape

Gambling Gibbs

核心机制

理论基础

优势

与 Barker Gibbs 对比

参考

1.9 KiB

Raw Blame History