20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/order-bias-removal.md
+++ b/concepts/order-bias-removal.md
@@ -0,0 +1,54 @@
+---
+title: "Order Bias Removal"
+created: 2026-06-25
+updated: 2026-06-25
+type: concept
+tags: [bias, llm, permutation, gibbs-sampling, probabilistic-inference]
+sources:
+  - "[[large-language-gibbs]]"
+---
+
+# Order Bias Removal
+
+**Order Bias Removal**（顺序偏差消除）是 Large Language Gibbs 框架中的关键技术，通过随机排列（random permutation）消除自回归 LLM 中因变量序列化顺序导致的系统性偏差。
+
+## 问题：自回归的顺序偏差
+
+自回归 LLM 在生成多个变量时，生成顺序会影响结果：
+
+- **近因效应（recency effect）**：后生成的变量受到最近生成的变量的过度影响
+- **上下文忽略（context ignorance）**：先生成的变量被后续生成"遗忘"
+- **首因效应（primacy effect）**：首个变量的生成对后续所有变量有不成比例的影响
+
+这些偏差意味着：从 LLM 的条件分布 p^LM(X_i | X_1, ..., X_{i-1}) 中采样，得到的不一定是"给定所有其他变量"的公平条件分布。
+
+## 解决方案：随机排列
+
+Large Language Gibbs 的解决方案是用**随机排列（random permutation）**来"对称化"条件分布：
+
+```
+q_i^LM(X_i | X_{-i}) = E_{σ_{-i}}[p^LM(X_i | seq(X_{-i}, σ_{-i}) ⊕ [c_i])]
+```
+
+每次重采样前，将除目标变量外的所有变量随机打乱顺序，再序列化为 prompt。
+
+## 理论保证
+
+在排列不变性假设（Assumption 3.1）下，随机排列的条件分布等价于对称化联合 q^sym 的单变量条件：
+
+```
+q^sym(X) = E_σ[p^LM(seq(X, σ))]
+```
+
+即使排列不变性不完全成立，随机排列也比任何固定顺序更接近对称化条件——因为它在期望上消除了一次性的顺序选择偏差。
+
+## 实践意义
+
+- **消除首因/近因效应**：每个变量的重采样使用不同的变量顺序
+- **不依赖 LLM 的排列不变性**：即使 LLM 有明显的位置偏好，期望也能中和
+- **代价**：每次重采样需要额外的随机化步骤，但不增加额外 LLM 调用
+
+## 参考
+
+- [[large-language-gibbs]] — 首次在 LLM-Gibbs 中系统化地使用随机排列
+- [[llm-mcmc]]