Files
myWiki/concepts/minimax-optimality.md

47 lines
1.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Minimax 最优性 (Minimax Optimality)"
created: 2026-06-10
updated: 2026-06-10
type: concept
tags: ["statistical-learning-theory", "lower-bounds", "information-theory"]
sources: ["[[minimax-policy-regret-pomg]]"]
---
# Minimax 最优性 (Minimax Optimality)
**Minimax 最优性**指算法的上界与问题的信息论下界匹配——即不可能有算法在 worst-case 下做得更好。
## 形式化
对于问题类 P 和算法 A
- **上界**:对任意问题实例 p in PR(A, p) <= U(T)
- **下界**:存在分布 D over P任何算法满足 E_p[R] >= L(T)
- **Minimax 最优**U(T) = Theta(L(T))
## 在 POMG 策略后悔中
[[minimax-policy-regret-pomg|Arora (2026)]] 建立了 POMG 中策略后悔的完整 minimax 特征:
**上界**
```
PR(T) <= C * H * sqrt(beta_T * d_E * T) + polylog(T)
```
**下界**:任何算法必须满足
```
PR(T) >= Omega(sqrt(d_E * T))
```
即使在最简单的设置中fully revealing POMG + 固定无记忆对手)。
→ 上下界在 sqrt(T) 和 d_E 依赖性上均匹配 → **minimax 最优**
## 下界构造
下界通过将多臂赌博机MAB实例编码到 POMG 的观测结构中构造,使得任何能在 POMG 中获得更好策略后悔的算法也可以在 MAB 中获得超最优的 regret——这与已知的 MAB 下界矛盾。
## 参考
- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
- [[policy-regret|Policy Regret]]
- [[eluder-dimension|Eluder Dimension]]