20260617:目前有914 页
This commit is contained in:
43
concepts/observable-operator-model.md
Normal file
43
concepts/observable-operator-model.md
Normal file
@@ -0,0 +1,43 @@
|
||||
---
|
||||
title: "可观测算子模型 (Observable Operator Model, OOM)"
|
||||
created: 2026-06-10
|
||||
updated: 2026-06-10
|
||||
type: concept
|
||||
tags: ["spectral-methods", "pomdp", "system-identification"]
|
||||
sources: ["[[minimax-policy-regret-pomg]]"]
|
||||
---
|
||||
|
||||
# 可观测算子模型 (Observable Operator Model, OOM)
|
||||
|
||||
**OOM**(Jaeger, 2000)是将部分可观测系统的动力学表示为按观测-动作对索引的算子集合的框架。关键优势:即使在潜状态空间很大时,也能进行可处理的似然计算。
|
||||
|
||||
## 核心公式
|
||||
|
||||
对于 [[partially-observable-markov-game|POMG]] 参数 xi = (theta, Phi) 和学习者策略 pi:
|
||||
|
||||
```
|
||||
P(o_1, ..., o_h | a_1, ..., a_h) = 1^T * J_h(o_h, a_h) * ... * J_1(o_1, a_1) * q_0
|
||||
```
|
||||
|
||||
其中 J_h(o, a) 是 d×d 的可观测算子,q_0 是初始预测状态。
|
||||
|
||||
## [[causal-decomposition-pomg|因果分解]]
|
||||
|
||||
在 POMG 中,OOM 算子的关键洞察是可以分解为:
|
||||
|
||||
**J_h(o, a) = W_h(o, a) · G_h(pi)**
|
||||
|
||||
- W_h(世界通道):仅依赖世界参数 theta(转移 + 发射核)
|
||||
- G_h(对手聚合):仅依赖对手参数 Phi
|
||||
|
||||
这种分解使得世界估计和对手控制可以**独立处理**。
|
||||
|
||||
## 与 HMM 的关系
|
||||
|
||||
OOM 是隐马尔可夫模型(HMM)的算子化表示。与需要追踪信念状态的 HMM 不同,OOM 直接操作预测状态——所需维度更小。
|
||||
|
||||
## 参考
|
||||
- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
|
||||
- [[pomdp|POMDP]]
|
||||
- [[causal-decomposition-pomg|Causal Decomposition]]
|
||||
- [[weak-revealing-condition|Weak Revealing]]
|
||||
Reference in New Issue
Block a user