43 lines
1.4 KiB
Markdown
43 lines
1.4 KiB
Markdown
---
|
||
title: "Eluder 维度 (Eluder Dimension)"
|
||
created: 2026-06-10
|
||
updated: 2026-06-10
|
||
type: concept
|
||
tags: ["statistical-learning-theory", "complexity-measures", "rl-theory"]
|
||
sources: ["[[minimax-policy-regret-pomg]]"]
|
||
---
|
||
|
||
# Eluder 维度 (Eluder Dimension)
|
||
|
||
**Eluder 维度**(Russo & Van Roy, 2013)是衡量函数类"顺序复杂度"的度量——它刻画了需要多少样本才能在函数类中唯一确定一个函数。
|
||
|
||
## 直觉
|
||
|
||
一个函数类有小的 Eluder 维度,意味着如果两个函数在少量精心选择的数据点上一一致,它们就在所有数据点上一一致。换句话说,你不能在其中"躲藏"太久。
|
||
|
||
## 在策略后悔界中的角色
|
||
|
||
在 [[minimax-policy-regret-pomg|Arora (2026)]] 的 POMG 分析中,Eluder 维度 d_E 出现在 regret 界中:
|
||
|
||
```
|
||
PR(T) = O(sqrt(d_E * T))
|
||
```
|
||
|
||
两类算子的 Eluder 维度:
|
||
|
||
1. **Stepwise 类** (d_step):单步 OOM 算子差异
|
||
2. **Aggregate 类** (d_agg = d_E):整个 episode 的累积差异
|
||
|
||
## 具体界
|
||
|
||
| 模型类 | d_E |
|
||
|--------|-----|
|
||
| Tabular | O(H * |S|^2 * |A| * |B| * |O_A|^k * |O_B|^k) |
|
||
| Linear world | O(H * (d_w * |O_A|^k * |O_B|^k + d_adv * |B|)) |
|
||
| Low-rank | O(H * (r^2 * (|A|+|B|) * |O_A|^k * |O_B|^k + ...)) |
|
||
|
||
## 参考
|
||
- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
|
||
- [[observable-operator-model|OOM]]
|
||
- [[minimax-optimality|Minimax Optimality]]
|