SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.6 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

部分可观测马尔可夫决策过程 (POMDP)

2026-06-10

2026-06-10

concept

reinforcement-learning

partial-observability

planning

minimax-policy-regret-pomg

部分可观测马尔可夫决策过程 (POMDP)

POMDP 是将部分可观测性引入 MDP 的通用框架：智能体不能直接观测状态，只能获得噪声观测信号。

与 MDP 的区别

MDP	POMDP
状态完全可观测	状态部分可观测
策略 = pi(s) -> a	策略 = pi(tau) -> a（基于历史）
值函数定义在状态上	值函数定义在信念状态上

核心挑战

信念追踪：从观测历史推断潜状态分布
历史依赖策略：最优策略可能需要无限记忆
维度诅咒：信念空间是 (|S|-1) 维单纯形

可处理性条件

并非所有 POMDP 都同样困难。关键结构条件：

weak-revealing-condition（Liu et al., 2022a）：观测信息量足够识别动力学
observable-operator-model 表示：算子化动力学，维度独立于 |S|
Block MDP：观测唯一确定块的身份

到 POMG 的扩展

partially-observable-markov-game 将 POMDP 扩展到博弈论设定——对手的行为影响动力学且策略性响应。这引入了 policy-regret、causal-decomposition-pomg等新挑战。

参考