LLM-MCMC

LLM-MCMC 是将 MCMC（Markov Chain Monte Carlo）方法与大型语言模型结合进行概率推断的伞形框架。其核心思想是将 LLM 的条件分布用作 MCMC 转移算子（transition operator），通过迭代采样从 LLM 编码的隐式联合分布中提取结构化样本。

研究脉络

Masked LM + MCMC（前身）

早期工作（Wang & Cho, 2019; Yamakoshi et al., 2022; Torroba Hennigen & Kim, 2023）使用 masked LM（如 BERT）的条件分布作为 MCMC 转移算子，目标是从 token 序列的隐式联合分布中采样。这些工作将 masked LM 解释为依赖网络（dependency network）或全连接马尔可夫随机场。

自回归 LLM + MCMC（当前）

large-language-gibbs 将这一思想扩展到自回归 LLM，关键区别在于：

维度	Masked LM + MCMC	AR LLM + MCMC
条件分布	直接可获取（masked token prediction）	需通过排列+序列化构造
变量类型	连续 token 序列	抽象结构化变量
应用	语言建模、文本生成	结构化推断、推理、因果发现

核心机制

MCMC 的基本结构在 LLM 上下文中保持不变：

转移算子：LLM 的条件分布 p^LM(X_i | X_{-i}) 近似 Gibbs kernel
稳态分布：链收敛到 q^* — 所有局部条件之间的折衷
消除偏差：随机排列 + 迭代更新移除自回归的顺序偏差

与标准 MCMC 的关键区别

维度	标准 MCMC	LLM-MCMC
条件分布来源	显式概率模型	LLM 隐式知识
条件兼容性	保证兼容（来自同一 joint）	不保证兼容（unary conditionals 可能不一致）
稳态分布	p（目标分布）	q^*（折衷分布）
采样效率	取决于模型	受 LLM 推理速度限制
可解释性	高（参数有语义）	低（LLM 黑盒）

应用方向

结构化采样：从 LLM 的隐式分布中抽取联合样本
一致性推理：确保相关问题集合答案的逻辑一致性
贝叶斯先验引出：从 LLM 知识中构建信息先验，辅助贝叶斯推断
约束生成：在预定义约束下从 LLM 先验中采样

参考

large-language-gibbs — AR LLM + Gibbs 的代表性工作
barker-gibbs
gambling-gibbs
order-bias-removal

2.5 KiB Raw Blame History Unescape Escape