Files
myWiki/concepts/eluder-dimension.md

43 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Eluder 维度 (Eluder Dimension)"
created: 2026-06-10
updated: 2026-06-10
type: concept
tags: ["statistical-learning-theory", "complexity-measures", "rl-theory"]
sources: ["[[minimax-policy-regret-pomg]]"]
---
# Eluder 维度 (Eluder Dimension)
**Eluder 维度**Russo & Van Roy, 2013是衡量函数类"顺序复杂度"的度量——它刻画了需要多少样本才能在函数类中唯一确定一个函数。
## 直觉
一个函数类有小的 Eluder 维度,意味着如果两个函数在少量精心选择的数据点上一一致,它们就在所有数据点上一一致。换句话说,你不能在其中"躲藏"太久。
## 在策略后悔界中的角色
在 [[minimax-policy-regret-pomg|Arora (2026)]] 的 POMG 分析中Eluder 维度 d_E 出现在 regret 界中:
```
PR(T) = O(sqrt(d_E * T))
```
两类算子的 Eluder 维度:
1. **Stepwise 类** (d_step):单步 OOM 算子差异
2. **Aggregate 类** (d_agg = d_E):整个 episode 的累积差异
## 具体界
| 模型类 | d_E |
|--------|-----|
| Tabular | O(H * |S|^2 * |A| * |B| * |O_A|^k * |O_B|^k) |
| Linear world | O(H * (d_w * |O_A|^k * |O_B|^k + d_adv * |B|)) |
| Low-rank | O(H * (r^2 * (|A|+|B|) * |O_A|^k * |O_B|^k + ...)) |
## 参考
- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
- [[observable-operator-model|OOM]]
- [[minimax-optimality|Minimax Optimality]]