SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.6 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

弱揭示条件 (Weak Revealing Condition)

2026-06-10

2026-06-10

concept

pomdp

system-identification

partial-observability

minimax-policy-regret-pomg

弱揭示条件 (Weak Revealing Condition)

Weak Revealing（Liu et al., 2022a）是 partially-observable-markov-game/pomdp 中关于观测信息量的结构假设，排除观测完全无信息的退化情况。

形式化定义

存在 kappa >= 1 和 alpha_kappa > 0，使得对于任意两个世界参数 theta, theta'：

|| O_{h:h+kappa-1}^{theta}(·|q,o,a) - O_{h:h+kappa-1}^{theta'}(·|q,o,a) ||_1
   >= alpha_kappa * || W_h^theta(o,a)·q - W_h^{theta'}(o,a)·q ||_1

即：世界通道差异可通过 kappa 步学习者观测窗口以至少 alpha_kappa 的信号强度检测。

直觉

kappa：窗口长度——需要多少步观测才能揭示动力学差异
alpha_kappa：信号强度——差异有多容易被检测

如果 kappa 很小且 alpha_kappa 很大 → 观测高度信息性 → 学习容易如果 kappa 很大或 alpha_kappa 很小 → 观测信息性差 → 学习困难（可能需要指数级样本）

在 POMG 中的角色

排除"观测完全无信息"的退化 POMG（否则无法从观测数据中识别世界动力学）
量化学习难度：alpha_kappa 和 kappa 出现在 regret 界的对数因子中
与 observable-operator-model 框架紧密结合

参考