Files
myWiki/concepts/pomdp.md

45 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "部分可观测马尔可夫决策过程 (POMDP)"
created: 2026-06-10
updated: 2026-06-10
type: concept
tags: ["reinforcement-learning", "partial-observability", "planning"]
sources: ["[[minimax-policy-regret-pomg]]"]
---
# 部分可观测马尔可夫决策过程 (POMDP)
**POMDP** 是将部分可观测性引入 MDP 的通用框架:智能体不能直接观测状态,只能获得噪声观测信号。
## 与 MDP 的区别
| MDP | POMDP |
|-----|-------|
| 状态完全可观测 | 状态部分可观测 |
| 策略 = pi(s) -> a | 策略 = pi(tau) -> a基于历史 |
| 值函数定义在状态上 | 值函数定义在信念状态上 |
## 核心挑战
1. **信念追踪**:从观测历史推断潜状态分布
2. **历史依赖策略**:最优策略可能需要无限记忆
3. **维度诅咒**:信念空间是 (|S|-1) 维单纯形
## 可处理性条件
并非所有 POMDP 都同样困难。关键结构条件:
- **[[weak-revealing-condition|Weak Revealing]]**Liu et al., 2022a观测信息量足够识别动力学
- **[[observable-operator-model|OOM]] 表示**:算子化动力学,维度独立于 |S|
- **Block MDP**:观测唯一确定块的身份
## 到 POMG 的扩展
[[partially-observable-markov-game|POMG]] 将 POMDP 扩展到博弈论设定——对手的行为影响动力学且策略性响应。这引入了 [[policy-regret|策略后悔]]、[[causal-decomposition-pomg|因果分解]]等新挑战。
## 参考
- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
- [[partially-observable-markov-game|POMG]]
- [[observable-operator-model|OOM]]
- [[weak-revealing-condition|Weak Revealing]]