20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/causal-decomposition-pomg.md
+++ b/concepts/causal-decomposition-pomg.md
@@ -0,0 +1,43 @@
+---
+title: "因果分解 (Causal Decomposition in POMG)"
+created: 2026-06-10
+updated: 2026-06-10
+type: concept
+tags: ["pomg", "structural-causal-model", "decomposition"]
+sources: ["[[minimax-policy-regret-pomg]]"]
+---
+
+# 因果分解 (Causal Decomposition in POMG)
+
+**因果分解**是 [[minimax-policy-regret-pomg|Arora (2026)]] 中 POMG 分析的核心结构洞察：将 [[observable-operator-model|OOM]] 算子分解为两个独立组件，使世界估计和对手控制可以分离处理。
+
+## 分解公式
+
+对于 POMG 的 OOM 算子 J_h(o, a)：
+
+```
+J_h(o, a) = W_h(o, a) · G_h(pi)
+```
+
+- **W_h(o, a)**（世界通道）：仅依赖世界参数 theta
+  - 包含转移核 T_h(s, a, b -> s') 和发射核 E_h^A(s -> o)
+  - 对手的私有观测和动作已被边缘化
+
+- **G_h(pi)**（对手聚合）：仅依赖对手参数 Phi
+  - 编码对手策略如何响应学习者策略 pi
+  - 在线性对手下为矩阵乘法
+
+## 为什么重要
+
+1. **模块化分析**：世界估计误差和对手建模误差可以独立 bound
+2. **维度可加性**：总 [[eluder-dimension|Eluder 维度]] d_E = d_Theta + d_Psi
+3. **算法设计**：MLE 仅需估计 Theta，对手 Lipschitz 性质仅需控制 Phi
+
+## 直观理解
+
+这类似于因果推断中的"解耦"思想——将总体观测动力学分解为"自然界如何运作"（世界通道）和"对手如何反应"（对手聚合）两个因果独立的部分。
+
+## 参考
+- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
+- [[observable-operator-model|OOM]]
+- [[eluder-dimension|Eluder Dimension]]