Files
myWiki/concepts/observable-operator-model.md

44 lines
1.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "可观测算子模型 (Observable Operator Model, OOM)"
created: 2026-06-10
updated: 2026-06-10
type: concept
tags: ["spectral-methods", "pomdp", "system-identification"]
sources: ["[[minimax-policy-regret-pomg]]"]
---
# 可观测算子模型 (Observable Operator Model, OOM)
**OOM**Jaeger, 2000是将部分可观测系统的动力学表示为按观测-动作对索引的算子集合的框架。关键优势:即使在潜状态空间很大时,也能进行可处理的似然计算。
## 核心公式
对于 [[partially-observable-markov-game|POMG]] 参数 xi = (theta, Phi) 和学习者策略 pi
```
P(o_1, ..., o_h | a_1, ..., a_h) = 1^T * J_h(o_h, a_h) * ... * J_1(o_1, a_1) * q_0
```
其中 J_h(o, a) 是 d×d 的可观测算子q_0 是初始预测状态。
## [[causal-decomposition-pomg|因果分解]]
在 POMG 中OOM 算子的关键洞察是可以分解为:
**J_h(o, a) = W_h(o, a) · G_h(pi)**
- W_h世界通道仅依赖世界参数 theta转移 + 发射核)
- G_h对手聚合仅依赖对手参数 Phi
这种分解使得世界估计和对手控制可以**独立处理**。
## 与 HMM 的关系
OOM 是隐马尔可夫模型HMM的算子化表示。与需要追踪信念状态的 HMM 不同OOM 直接操作预测状态——所需维度更小。
## 参考
- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
- [[pomdp|POMDP]]
- [[causal-decomposition-pomg|Causal Decomposition]]
- [[weak-revealing-condition|Weak Revealing]]