Files
myWiki/concepts/llm-mcmc.md

62 lines
2.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "LLM-MCMC"
created: 2026-06-25
updated: 2026-06-25
type: concept
tags: [mcmc, llm, probabilistic-inference, sampling, bayesian]
sources:
- "[[large-language-gibbs]]"
---
# LLM-MCMC
**LLM-MCMC** 是将 MCMCMarkov Chain Monte Carlo方法与大型语言模型结合进行概率推断的伞形框架。其核心思想是将 LLM 的条件分布用作 MCMC 转移算子transition operator通过迭代采样从 LLM 编码的隐式联合分布中提取结构化样本。
## 研究脉络
### Masked LM + MCMC前身
早期工作Wang & Cho, 2019; Yamakoshi et al., 2022; Torroba Hennigen & Kim, 2023使用 masked LM如 BERT的条件分布作为 MCMC 转移算子,目标是从 token 序列的隐式联合分布中采样。这些工作将 masked LM 解释为依赖网络dependency network或全连接马尔可夫随机场。
### 自回归 LLM + MCMC当前
[[large-language-gibbs|Large Language Gibbs]] 将这一思想扩展到自回归 LLM关键区别在于
| 维度 | Masked LM + MCMC | AR LLM + MCMC |
|------|-----------------|--------------|
| 条件分布 | 直接可获取masked token prediction | 需通过排列+序列化构造 |
| 变量类型 | 连续 token 序列 | 抽象结构化变量 |
| 应用 | 语言建模、文本生成 | 结构化推断、推理、因果发现 |
## 核心机制
MCMC 的基本结构在 LLM 上下文中保持不变:
1. **转移算子**LLM 的条件分布 p^LM(X_i | X_{-i}) 近似 Gibbs kernel
2. **稳态分布**:链收敛到 q^* — 所有局部条件之间的折衷
3. **消除偏差**:随机排列 + 迭代更新移除自回归的顺序偏差
## 与标准 MCMC 的关键区别
| 维度 | 标准 MCMC | LLM-MCMC |
|------|----------|----------|
| 条件分布来源 | 显式概率模型 | LLM 隐式知识 |
| 条件兼容性 | 保证兼容(来自同一 joint | 不保证兼容unary conditionals 可能不一致) |
| 稳态分布 | p目标分布 | q^*(折衷分布) |
| 采样效率 | 取决于模型 | 受 LLM 推理速度限制 |
| 可解释性 | 高(参数有语义) | 低LLM 黑盒) |
## 应用方向
- **结构化采样**:从 LLM 的隐式分布中抽取联合样本
- **一致性推理**:确保相关问题集合答案的逻辑一致性
- **贝叶斯先验引出**:从 LLM 知识中构建信息先验,辅助贝叶斯推断
- **约束生成**:在预定义约束下从 LLM 先验中采样
## 参考
- [[large-language-gibbs]] — AR LLM + Gibbs 的代表性工作
- [[barker-gibbs]]
- [[gambling-gibbs]]
- [[order-bias-removal]]