Files
myWiki/concepts/pomdp.md

1.6 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
部分可观测马尔可夫决策过程 (POMDP) 2026-06-10 2026-06-10 concept
reinforcement-learning
partial-observability
planning
minimax-policy-regret-pomg

部分可观测马尔可夫决策过程 (POMDP)

POMDP 是将部分可观测性引入 MDP 的通用框架:智能体不能直接观测状态,只能获得噪声观测信号。

与 MDP 的区别

MDP POMDP
状态完全可观测 状态部分可观测
策略 = pi(s) -> a 策略 = pi(tau) -> a基于历史
值函数定义在状态上 值函数定义在信念状态上

核心挑战

  1. 信念追踪:从观测历史推断潜状态分布
  2. 历史依赖策略:最优策略可能需要无限记忆
  3. 维度诅咒:信念空间是 (|S|-1) 维单纯形

可处理性条件

并非所有 POMDP 都同样困难。关键结构条件:

到 POMG 的扩展

partially-observable-markov-game 将 POMDP 扩展到博弈论设定——对手的行为影响动力学且策略性响应。这引入了 policy-regretcausal-decomposition-pomg等新挑战。

参考