Files
myWiki/concepts/llm-consistent-reasoning.md

55 lines
2.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "LLM Consistent Reasoning"
created: 2026-06-25
updated: 2026-06-25
type: concept
tags: [reasoning, llm, consistency, gibbs-sampling, mcmc]
sources:
- "[[large-language-gibbs]]"
---
# LLM Consistent Reasoning
**LLM Consistent Reasoning**LLM 一致性推理)是通过迭代条件更新确保 LLM 在相关问题集合上产生逻辑一致答案的推理范式。Large Language Gibbs 将其形式化为在隐式联合分布上的 Gibbs 采样。
## 动机
标准 LLM 推理通常独立处理每个问题,但许多问题之间存在约束关系:
- 同一个物理事实的不同表述应该得到相同答案
- 数学问题与其验证性问题应该一致
- 因果相关的事件应该有逻辑上协调的解释
独立处理导致不一致——例如对 "太阳是最亮的恒星" 和 "天狼星是最亮的恒星" 同时回答 "True"。
## Gibbs 一致性推理
将每个问题-答案对视为一个二元变量 X_i ∈ {True, False},整个问题集合为 X = (X_1, ..., X_n)。通过 Gibbs 采样迭代更新:
1. 初始化所有答案(自回归生成)
2. 每次随机选一个变量 X_i给定所有其他答案 X_{-i},从 LLM 重新采样 X_i
3. 重复至收敛,取 burn-in 后的样本
**关键效果**:当 LLM"知道"某些事实间的逻辑关系时(如 "Polaris" 和 "North Star" 是同一颗星Gibbs 迭代会逐渐消除不一致——即使 LLM 从未被显式告知这个约束。
## 与 ICM 对比
Wen et al. (2025) 的 ICM 通过近似最大化 sum of conditional log-probabilities 来实现一致性是一种启发式算法。Gibbs 一致性推理的优势:
| 维度 | ICM | Gibbs |
|------|-----|-------|
| 目标 | 最大化条件似然和 | 采样稳态分布 |
| 理论保证 | 无 | MCMC 收敛理论 |
| 变量顺序 | 固定 | 随机化消除偏差 |
| 温度调度 | simulated annealing | 固定温度 |
## 在 TruthfulQA 和 GSM8K 的表现
Large Language Gibbs 在 TruthfulQA 和 GSM8K-Verification 上验证Gibbs 迭代更新相比独立推理Zero-shot和多轮顺序推理k-Pass能更好地维持答案间的一致性。
## 参考
- [[large-language-gibbs]] — Gibbs 一致性推理的论文
- [[llm-mcmc]]
- [[order-bias-removal]]