1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| 部分可观测马尔可夫决策过程 (POMDP) | 2026-06-10 | 2026-06-10 | concept |
|
|
部分可观测马尔可夫决策过程 (POMDP)
POMDP 是将部分可观测性引入 MDP 的通用框架:智能体不能直接观测状态,只能获得噪声观测信号。
与 MDP 的区别
| MDP | POMDP |
|---|---|
| 状态完全可观测 | 状态部分可观测 |
| 策略 = pi(s) -> a | 策略 = pi(tau) -> a(基于历史) |
| 值函数定义在状态上 | 值函数定义在信念状态上 |
核心挑战
- 信念追踪:从观测历史推断潜状态分布
- 历史依赖策略:最优策略可能需要无限记忆
- 维度诅咒:信念空间是 (|S|-1) 维单纯形
可处理性条件
并非所有 POMDP 都同样困难。关键结构条件:
- weak-revealing-condition(Liu et al., 2022a):观测信息量足够识别动力学
- observable-operator-model 表示:算子化动力学,维度独立于 |S|
- Block MDP:观测唯一确定块的身份
到 POMG 的扩展
partially-observable-markov-game 将 POMDP 扩展到博弈论设定——对手的行为影响动力学且策略性响应。这引入了 policy-regret、causal-decomposition-pomg等新挑战。