1.4 KiB
1.4 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| Eluder 维度 (Eluder Dimension) | 2026-06-10 | 2026-06-10 | concept |
|
|
Eluder 维度 (Eluder Dimension)
Eluder 维度(Russo & Van Roy, 2013)是衡量函数类"顺序复杂度"的度量——它刻画了需要多少样本才能在函数类中唯一确定一个函数。
直觉
一个函数类有小的 Eluder 维度,意味着如果两个函数在少量精心选择的数据点上一一致,它们就在所有数据点上一一致。换句话说,你不能在其中"躲藏"太久。
在策略后悔界中的角色
在 minimax-policy-regret-pomg 的 POMG 分析中,Eluder 维度 d_E 出现在 regret 界中:
PR(T) = O(sqrt(d_E * T))
两类算子的 Eluder 维度:
- Stepwise 类 (d_step):单步 OOM 算子差异
- Aggregate 类 (d_agg = d_E):整个 episode 的累积差异
具体界
| 模型类 | d_E |
|---|---|
| Tabular | O(H * |
| Linear world | O(H * (d_w * |
| Low-rank | O(H * (r^2 * ( |