Files
myWiki/concepts/causal-decomposition-pomg.md

44 lines
1.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "因果分解 (Causal Decomposition in POMG)"
created: 2026-06-10
updated: 2026-06-10
type: concept
tags: ["pomg", "structural-causal-model", "decomposition"]
sources: ["[[minimax-policy-regret-pomg]]"]
---
# 因果分解 (Causal Decomposition in POMG)
**因果分解**是 [[minimax-policy-regret-pomg|Arora (2026)]] 中 POMG 分析的核心结构洞察:将 [[observable-operator-model|OOM]] 算子分解为两个独立组件,使世界估计和对手控制可以分离处理。
## 分解公式
对于 POMG 的 OOM 算子 J_h(o, a)
```
J_h(o, a) = W_h(o, a) · G_h(pi)
```
- **W_h(o, a)**(世界通道):仅依赖世界参数 theta
- 包含转移核 T_h(s, a, b -> s') 和发射核 E_h^A(s -> o)
- 对手的私有观测和动作已被边缘化
- **G_h(pi)**(对手聚合):仅依赖对手参数 Phi
- 编码对手策略如何响应学习者策略 pi
- 在线性对手下为矩阵乘法
## 为什么重要
1. **模块化分析**:世界估计误差和对手建模误差可以独立 bound
2. **维度可加性**:总 [[eluder-dimension|Eluder 维度]] d_E = d_Theta + d_Psi
3. **算法设计**MLE 仅需估计 Theta对手 Lipschitz 性质仅需控制 Phi
## 直观理解
这类似于因果推断中的"解耦"思想——将总体观测动力学分解为"自然界如何运作"(世界通道)和"对手如何反应"(对手聚合)两个因果独立的部分。
## 参考
- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
- [[observable-operator-model|OOM]]
- [[eluder-dimension|Eluder Dimension]]