20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/eluder-dimension.md
+++ b/concepts/eluder-dimension.md
@@ -0,0 +1,42 @@
+---
+title: "Eluder 维度 (Eluder Dimension)"
+created: 2026-06-10
+updated: 2026-06-10
+type: concept
+tags: ["statistical-learning-theory", "complexity-measures", "rl-theory"]
+sources: ["[[minimax-policy-regret-pomg]]"]
+---
+
+# Eluder 维度 (Eluder Dimension)
+
+**Eluder 维度**（Russo & Van Roy, 2013）是衡量函数类"顺序复杂度"的度量——它刻画了需要多少样本才能在函数类中唯一确定一个函数。
+
+## 直觉
+
+一个函数类有小的 Eluder 维度，意味着如果两个函数在少量精心选择的数据点上一一致，它们就在所有数据点上一一致。换句话说，你不能在其中"躲藏"太久。
+
+## 在策略后悔界中的角色
+
+在 [[minimax-policy-regret-pomg|Arora (2026)]] 的 POMG 分析中，Eluder 维度 d_E 出现在 regret 界中：
+
+```
+PR(T) = O(sqrt(d_E * T))
+```
+
+两类算子的 Eluder 维度：
+
+1. **Stepwise 类** (d_step)：单步 OOM 算子差异
+2. **Aggregate 类** (d_agg = d_E)：整个 episode 的累积差异
+
+## 具体界
+
+| 模型类 | d_E |
+|--------|-----|
+| Tabular | O(H * |S|^2 * |A| * |B| * |O_A|^k * |O_B|^k) |
+| Linear world | O(H * (d_w * |O_A|^k * |O_B|^k + d_adv * |B|)) |
+| Low-rank | O(H * (r^2 * (|A|+|B|) * |O_A|^k * |O_B|^k + ...)) |
+
+## 参考
+- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
+- [[observable-operator-model|OOM]]
+- [[minimax-optimality|Minimax Optimality]]