Files
myWiki/concepts/llm-mcmc.md

2.5 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
LLM-MCMC 2026-06-25 2026-06-25 concept
mcmc
llm
probabilistic-inference
sampling
bayesian
large-language-gibbs

LLM-MCMC

LLM-MCMC 是将 MCMCMarkov Chain Monte Carlo方法与大型语言模型结合进行概率推断的伞形框架。其核心思想是将 LLM 的条件分布用作 MCMC 转移算子transition operator通过迭代采样从 LLM 编码的隐式联合分布中提取结构化样本。

研究脉络

Masked LM + MCMC前身

早期工作Wang & Cho, 2019; Yamakoshi et al., 2022; Torroba Hennigen & Kim, 2023使用 masked LM如 BERT的条件分布作为 MCMC 转移算子,目标是从 token 序列的隐式联合分布中采样。这些工作将 masked LM 解释为依赖网络dependency network或全连接马尔可夫随机场。

自回归 LLM + MCMC当前

large-language-gibbs 将这一思想扩展到自回归 LLM关键区别在于

维度 Masked LM + MCMC AR LLM + MCMC
条件分布 直接可获取masked token prediction 需通过排列+序列化构造
变量类型 连续 token 序列 抽象结构化变量
应用 语言建模、文本生成 结构化推断、推理、因果发现

核心机制

MCMC 的基本结构在 LLM 上下文中保持不变:

  1. 转移算子LLM 的条件分布 p^LM(X_i | X_{-i}) 近似 Gibbs kernel
  2. 稳态分布:链收敛到 q^* — 所有局部条件之间的折衷
  3. 消除偏差:随机排列 + 迭代更新移除自回归的顺序偏差

与标准 MCMC 的关键区别

维度 标准 MCMC LLM-MCMC
条件分布来源 显式概率模型 LLM 隐式知识
条件兼容性 保证兼容(来自同一 joint 不保证兼容unary conditionals 可能不一致)
稳态分布 p目标分布 q^*(折衷分布)
采样效率 取决于模型 受 LLM 推理速度限制
可解释性 高(参数有语义) LLM 黑盒)

应用方向

  • 结构化采样:从 LLM 的隐式分布中抽取联合样本
  • 一致性推理:确保相关问题集合答案的逻辑一致性
  • 贝叶斯先验引出:从 LLM 知识中构建信息先验,辅助贝叶斯推断
  • 约束生成:在预定义约束下从 LLM 先验中采样

参考