20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/pomdp.md
+++ b/concepts/pomdp.md
@@ -0,0 +1,44 @@
+---
+title: "部分可观测马尔可夫决策过程 (POMDP)"
+created: 2026-06-10
+updated: 2026-06-10
+type: concept
+tags: ["reinforcement-learning", "partial-observability", "planning"]
+sources: ["[[minimax-policy-regret-pomg]]"]
+---
+
+# 部分可观测马尔可夫决策过程 (POMDP)
+
+**POMDP** 是将部分可观测性引入 MDP 的通用框架：智能体不能直接观测状态，只能获得噪声观测信号。
+
+## 与 MDP 的区别
+
+| MDP | POMDP |
+|-----|-------|
+| 状态完全可观测 | 状态部分可观测 |
+| 策略 = pi(s) -> a | 策略 = pi(tau) -> a（基于历史） |
+| 值函数定义在状态上 | 值函数定义在信念状态上 |
+
+## 核心挑战
+
+1. **信念追踪**：从观测历史推断潜状态分布
+2. **历史依赖策略**：最优策略可能需要无限记忆
+3. **维度诅咒**：信念空间是 (|S|-1) 维单纯形
+
+## 可处理性条件
+
+并非所有 POMDP 都同样困难。关键结构条件：
+
+- **[[weak-revealing-condition|Weak Revealing]]**（Liu et al., 2022a）：观测信息量足够识别动力学
+- **[[observable-operator-model|OOM]] 表示**：算子化动力学，维度独立于 |S|
+- **Block MDP**：观测唯一确定块的身份
+
+## 到 POMG 的扩展
+
+[[partially-observable-markov-game|POMG]] 将 POMDP 扩展到博弈论设定——对手的行为影响动力学且策略性响应。这引入了 [[policy-regret|策略后悔]]、[[causal-decomposition-pomg|因果分解]]等新挑战。
+
+## 参考
+- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
+- [[partially-observable-markov-game|POMG]]
+- [[observable-operator-model|OOM]]
+- [[weak-revealing-condition|Weak Revealing]]