20260617:目前有914 页
This commit is contained in:
43
concepts/causal-decomposition-pomg.md
Normal file
43
concepts/causal-decomposition-pomg.md
Normal file
@@ -0,0 +1,43 @@
|
||||
---
|
||||
title: "因果分解 (Causal Decomposition in POMG)"
|
||||
created: 2026-06-10
|
||||
updated: 2026-06-10
|
||||
type: concept
|
||||
tags: ["pomg", "structural-causal-model", "decomposition"]
|
||||
sources: ["[[minimax-policy-regret-pomg]]"]
|
||||
---
|
||||
|
||||
# 因果分解 (Causal Decomposition in POMG)
|
||||
|
||||
**因果分解**是 [[minimax-policy-regret-pomg|Arora (2026)]] 中 POMG 分析的核心结构洞察:将 [[observable-operator-model|OOM]] 算子分解为两个独立组件,使世界估计和对手控制可以分离处理。
|
||||
|
||||
## 分解公式
|
||||
|
||||
对于 POMG 的 OOM 算子 J_h(o, a):
|
||||
|
||||
```
|
||||
J_h(o, a) = W_h(o, a) · G_h(pi)
|
||||
```
|
||||
|
||||
- **W_h(o, a)**(世界通道):仅依赖世界参数 theta
|
||||
- 包含转移核 T_h(s, a, b -> s') 和发射核 E_h^A(s -> o)
|
||||
- 对手的私有观测和动作已被边缘化
|
||||
|
||||
- **G_h(pi)**(对手聚合):仅依赖对手参数 Phi
|
||||
- 编码对手策略如何响应学习者策略 pi
|
||||
- 在线性对手下为矩阵乘法
|
||||
|
||||
## 为什么重要
|
||||
|
||||
1. **模块化分析**:世界估计误差和对手建模误差可以独立 bound
|
||||
2. **维度可加性**:总 [[eluder-dimension|Eluder 维度]] d_E = d_Theta + d_Psi
|
||||
3. **算法设计**:MLE 仅需估计 Theta,对手 Lipschitz 性质仅需控制 Phi
|
||||
|
||||
## 直观理解
|
||||
|
||||
这类似于因果推断中的"解耦"思想——将总体观测动力学分解为"自然界如何运作"(世界通道)和"对手如何反应"(对手聚合)两个因果独立的部分。
|
||||
|
||||
## 参考
|
||||
- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
|
||||
- [[observable-operator-model|OOM]]
|
||||
- [[eluder-dimension|Eluder Dimension]]
|
||||
Reference in New Issue
Block a user