20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/minimax-optimality.md
+++ b/concepts/minimax-optimality.md
@@ -0,0 +1,46 @@
+---
+title: "Minimax 最优性 (Minimax Optimality)"
+created: 2026-06-10
+updated: 2026-06-10
+type: concept
+tags: ["statistical-learning-theory", "lower-bounds", "information-theory"]
+sources: ["[[minimax-policy-regret-pomg]]"]
+---
+
+# Minimax 最优性 (Minimax Optimality)
+
+**Minimax 最优性**指算法的上界与问题的信息论下界匹配——即不可能有算法在 worst-case 下做得更好。
+
+## 形式化
+
+对于问题类 P 和算法 A：
+
+- **上界**：对任意问题实例 p in P，R(A, p) <= U(T)
+- **下界**：存在分布 D over P，任何算法满足 E_p[R] >= L(T)
+- **Minimax 最优**：U(T) = Theta(L(T))
+
+## 在 POMG 策略后悔中
+
+[[minimax-policy-regret-pomg|Arora (2026)]] 建立了 POMG 中策略后悔的完整 minimax 特征：
+
+**上界**：
+```
+PR(T) <= C * H * sqrt(beta_T * d_E * T) + polylog(T)
+```
+
+**下界**：任何算法必须满足
+```
+PR(T) >= Omega(sqrt(d_E * T))
+```
+即使在最简单的设置中（fully revealing POMG + 固定无记忆对手）。
+
+→ 上下界在 sqrt(T) 和 d_E 依赖性上均匹配 → **minimax 最优**
+
+## 下界构造
+
+下界通过将多臂赌博机（MAB）实例编码到 POMG 的观测结构中构造，使得任何能在 POMG 中获得更好策略后悔的算法也可以在 MAB 中获得超最优的 regret——这与已知的 MAB 下界矛盾。
+
+## 参考
+- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
+- [[policy-regret|Policy Regret]]
+- [[eluder-dimension|Eluder Dimension]]