SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.5 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

因果分解 (Causal Decomposition in POMG)

2026-06-10

2026-06-10

concept

pomg

structural-causal-model

decomposition

minimax-policy-regret-pomg

因果分解 (Causal Decomposition in POMG)

因果分解是 minimax-policy-regret-pomg 中 POMG 分析的核心结构洞察：将 observable-operator-model 算子分解为两个独立组件，使世界估计和对手控制可以分离处理。

分解公式

对于 POMG 的 OOM 算子 J_h(o, a)：

J_h(o, a) = W_h(o, a) · G_h(pi)

W_h(o, a)（世界通道）：仅依赖世界参数 theta
- 包含转移核 T_h(s, a, b -> s') 和发射核 E_h^A(s -> o)
- 对手的私有观测和动作已被边缘化
G_h(pi)（对手聚合）：仅依赖对手参数 Phi
- 编码对手策略如何响应学习者策略 pi
- 在线性对手下为矩阵乘法

为什么重要

模块化分析：世界估计误差和对手建模误差可以独立 bound
维度可加性：总 eluder-dimension d_E = d_Theta + d_Psi
算法设计：MLE 仅需估计 Theta，对手 Lipschitz 性质仅需控制 Phi

直观理解

这类似于因果推断中的"解耦"思想——将总体观测动力学分解为"自然界如何运作"（世界通道）和"对手如何反应"（对手聚合）两个因果独立的部分。

参考