SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.4 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Eluder 维度 (Eluder Dimension)

2026-06-10

2026-06-10

concept

statistical-learning-theory

complexity-measures

rl-theory

minimax-policy-regret-pomg

Eluder 维度 (Eluder Dimension)

Eluder 维度（Russo & Van Roy, 2013）是衡量函数类"顺序复杂度"的度量——它刻画了需要多少样本才能在函数类中唯一确定一个函数。

直觉

一个函数类有小的 Eluder 维度，意味着如果两个函数在少量精心选择的数据点上一一致，它们就在所有数据点上一一致。换句话说，你不能在其中"躲藏"太久。

在策略后悔界中的角色

在 minimax-policy-regret-pomg 的 POMG 分析中，Eluder 维度 d_E 出现在 regret 界中：

PR(T) = O(sqrt(d_E * T))

两类算子的 Eluder 维度：

Stepwise 类 (d_step)：单步 OOM 算子差异
Aggregate 类 (d_agg = d_E)：整个 episode 的累积差异

具体界

模型类	d_E
Tabular	O(H *
Linear world	O(H * (d_w *
Low-rank	O(H * (r^2 * (

参考