---
title: "LLM-MCMC"
created: 2026-06-25
updated: 2026-06-25
type: concept
tags: [mcmc, llm, probabilistic-inference, sampling, bayesian]
sources:
  - "[[large-language-gibbs]]"
---

# LLM-MCMC

**LLM-MCMC** 是将 MCMC（Markov Chain Monte Carlo）方法与大型语言模型结合进行概率推断的伞形框架。其核心思想是将 LLM 的条件分布用作 MCMC 转移算子（transition operator），通过迭代采样从 LLM 编码的隐式联合分布中提取结构化样本。

## 研究脉络

### Masked LM + MCMC（前身）

早期工作（Wang & Cho, 2019; Yamakoshi et al., 2022; Torroba Hennigen & Kim, 2023）使用 masked LM（如 BERT）的条件分布作为 MCMC 转移算子，目标是从 token 序列的隐式联合分布中采样。这些工作将 masked LM 解释为依赖网络（dependency network）或全连接马尔可夫随机场。

### 自回归 LLM + MCMC（当前）

[[large-language-gibbs|Large Language Gibbs]] 将这一思想扩展到自回归 LLM，关键区别在于：

| 维度 | Masked LM + MCMC | AR LLM + MCMC |
|------|-----------------|--------------|
| 条件分布 | 直接可获取（masked token prediction） | 需通过排列+序列化构造 |
| 变量类型 | 连续 token 序列 | 抽象结构化变量 |
| 应用 | 语言建模、文本生成 | 结构化推断、推理、因果发现 |

## 核心机制

MCMC 的基本结构在 LLM 上下文中保持不变：

1. **转移算子**：LLM 的条件分布 p^LM(X_i | X_{-i}) 近似 Gibbs kernel
2. **稳态分布**：链收敛到 q^* — 所有局部条件之间的折衷
3. **消除偏差**：随机排列 + 迭代更新移除自回归的顺序偏差

## 与标准 MCMC 的关键区别

| 维度 | 标准 MCMC | LLM-MCMC |
|------|----------|----------|
| 条件分布来源 | 显式概率模型 | LLM 隐式知识 |
| 条件兼容性 | 保证兼容（来自同一 joint） | 不保证兼容（unary conditionals 可能不一致） |
| 稳态分布 | p（目标分布） | q^*（折衷分布） |
| 采样效率 | 取决于模型 | 受 LLM 推理速度限制 |
| 可解释性 | 高（参数有语义） | 低（LLM 黑盒） |

## 应用方向

- **结构化采样**：从 LLM 的隐式分布中抽取联合样本
- **一致性推理**：确保相关问题集合答案的逻辑一致性
- **贝叶斯先验引出**：从 LLM 知识中构建信息先验，辅助贝叶斯推断
- **约束生成**：在预定义约束下从 LLM 先验中采样

## 参考

- [[large-language-gibbs]] — AR LLM + Gibbs 的代表性工作
- [[barker-gibbs]]
- [[gambling-gibbs]]
- [[order-bias-removal]]