47 lines
1.5 KiB
Markdown
47 lines
1.5 KiB
Markdown
---
|
||
title: "Minimax 最优性 (Minimax Optimality)"
|
||
created: 2026-06-10
|
||
updated: 2026-06-10
|
||
type: concept
|
||
tags: ["statistical-learning-theory", "lower-bounds", "information-theory"]
|
||
sources: ["[[minimax-policy-regret-pomg]]"]
|
||
---
|
||
|
||
# Minimax 最优性 (Minimax Optimality)
|
||
|
||
**Minimax 最优性**指算法的上界与问题的信息论下界匹配——即不可能有算法在 worst-case 下做得更好。
|
||
|
||
## 形式化
|
||
|
||
对于问题类 P 和算法 A:
|
||
|
||
- **上界**:对任意问题实例 p in P,R(A, p) <= U(T)
|
||
- **下界**:存在分布 D over P,任何算法满足 E_p[R] >= L(T)
|
||
- **Minimax 最优**:U(T) = Theta(L(T))
|
||
|
||
## 在 POMG 策略后悔中
|
||
|
||
[[minimax-policy-regret-pomg|Arora (2026)]] 建立了 POMG 中策略后悔的完整 minimax 特征:
|
||
|
||
**上界**:
|
||
```
|
||
PR(T) <= C * H * sqrt(beta_T * d_E * T) + polylog(T)
|
||
```
|
||
|
||
**下界**:任何算法必须满足
|
||
```
|
||
PR(T) >= Omega(sqrt(d_E * T))
|
||
```
|
||
即使在最简单的设置中(fully revealing POMG + 固定无记忆对手)。
|
||
|
||
→ 上下界在 sqrt(T) 和 d_E 依赖性上均匹配 → **minimax 最优**
|
||
|
||
## 下界构造
|
||
|
||
下界通过将多臂赌博机(MAB)实例编码到 POMG 的观测结构中构造,使得任何能在 POMG 中获得更好策略后悔的算法也可以在 MAB 中获得超最优的 regret——这与已知的 MAB 下界矛盾。
|
||
|
||
## 参考
|
||
- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
|
||
- [[policy-regret|Policy Regret]]
|
||
- [[eluder-dimension|Eluder Dimension]]
|