20260617:目前有914 页
This commit is contained in:
44
concepts/pomdp.md
Normal file
44
concepts/pomdp.md
Normal file
@@ -0,0 +1,44 @@
|
||||
---
|
||||
title: "部分可观测马尔可夫决策过程 (POMDP)"
|
||||
created: 2026-06-10
|
||||
updated: 2026-06-10
|
||||
type: concept
|
||||
tags: ["reinforcement-learning", "partial-observability", "planning"]
|
||||
sources: ["[[minimax-policy-regret-pomg]]"]
|
||||
---
|
||||
|
||||
# 部分可观测马尔可夫决策过程 (POMDP)
|
||||
|
||||
**POMDP** 是将部分可观测性引入 MDP 的通用框架:智能体不能直接观测状态,只能获得噪声观测信号。
|
||||
|
||||
## 与 MDP 的区别
|
||||
|
||||
| MDP | POMDP |
|
||||
|-----|-------|
|
||||
| 状态完全可观测 | 状态部分可观测 |
|
||||
| 策略 = pi(s) -> a | 策略 = pi(tau) -> a(基于历史) |
|
||||
| 值函数定义在状态上 | 值函数定义在信念状态上 |
|
||||
|
||||
## 核心挑战
|
||||
|
||||
1. **信念追踪**:从观测历史推断潜状态分布
|
||||
2. **历史依赖策略**:最优策略可能需要无限记忆
|
||||
3. **维度诅咒**:信念空间是 (|S|-1) 维单纯形
|
||||
|
||||
## 可处理性条件
|
||||
|
||||
并非所有 POMDP 都同样困难。关键结构条件:
|
||||
|
||||
- **[[weak-revealing-condition|Weak Revealing]]**(Liu et al., 2022a):观测信息量足够识别动力学
|
||||
- **[[observable-operator-model|OOM]] 表示**:算子化动力学,维度独立于 |S|
|
||||
- **Block MDP**:观测唯一确定块的身份
|
||||
|
||||
## 到 POMG 的扩展
|
||||
|
||||
[[partially-observable-markov-game|POMG]] 将 POMDP 扩展到博弈论设定——对手的行为影响动力学且策略性响应。这引入了 [[policy-regret|策略后悔]]、[[causal-decomposition-pomg|因果分解]]等新挑战。
|
||||
|
||||
## 参考
|
||||
- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
|
||||
- [[partially-observable-markov-game|POMG]]
|
||||
- [[observable-operator-model|OOM]]
|
||||
- [[weak-revealing-condition|Weak Revealing]]
|
||||
Reference in New Issue
Block a user