Files
myWiki/concepts/minimax-optimality.md

1.5 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Minimax 最优性 (Minimax Optimality) 2026-06-10 2026-06-10 concept
statistical-learning-theory
lower-bounds
information-theory
minimax-policy-regret-pomg

Minimax 最优性 (Minimax Optimality)

Minimax 最优性指算法的上界与问题的信息论下界匹配——即不可能有算法在 worst-case 下做得更好。

形式化

对于问题类 P 和算法 A

  • 上界:对任意问题实例 p in PR(A, p) <= U(T)
  • 下界:存在分布 D over P任何算法满足 E_p[R] >= L(T)
  • Minimax 最优U(T) = Theta(L(T))

在 POMG 策略后悔中

minimax-policy-regret-pomg 建立了 POMG 中策略后悔的完整 minimax 特征:

上界

PR(T) <= C * H * sqrt(beta_T * d_E * T) + polylog(T)

下界:任何算法必须满足

PR(T) >= Omega(sqrt(d_E * T))

即使在最简单的设置中fully revealing POMG + 固定无记忆对手)。

→ 上下界在 sqrt(T) 和 d_E 依赖性上均匹配 → minimax 最优

下界构造

下界通过将多臂赌博机MAB实例编码到 POMG 的观测结构中构造,使得任何能在 POMG 中获得更好策略后悔的算法也可以在 MAB 中获得超最优的 regret——这与已知的 MAB 下界矛盾。

参考