Files
myWiki/concepts/weak-revealing-condition.md

43 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "弱揭示条件 (Weak Revealing Condition)"
created: 2026-06-10
updated: 2026-06-10
type: concept
tags: ["pomdp", "system-identification", "partial-observability"]
sources: ["[[minimax-policy-regret-pomg]]"]
---
# 弱揭示条件 (Weak Revealing Condition)
**Weak Revealing**Liu et al., 2022a是 [[partially-observable-markov-game|POMG]]/[[pomdp|POMDP]] 中关于观测信息量的结构假设,排除观测完全无信息的退化情况。
## 形式化定义
存在 kappa >= 1 和 alpha_kappa > 0使得对于任意两个世界参数 theta, theta'
```
|| O_{h:h+kappa-1}^{theta}(·|q,o,a) - O_{h:h+kappa-1}^{theta'}(·|q,o,a) ||_1
>= alpha_kappa * || W_h^theta(o,a)·q - W_h^{theta'}(o,a)·q ||_1
```
即:世界通道差异可通过 kappa 步学习者观测窗口以至少 alpha_kappa 的信号强度检测。
## 直觉
- kappa窗口长度——需要多少步观测才能揭示动力学差异
- alpha_kappa信号强度——差异有多容易被检测
如果 kappa 很小且 alpha_kappa 很大 → 观测高度信息性 → 学习容易
如果 kappa 很大或 alpha_kappa 很小 → 观测信息性差 → 学习困难(可能需要指数级样本)
## 在 POMG 中的角色
1. 排除"观测完全无信息"的退化 POMG否则无法从观测数据中识别世界动力学
2. 量化学习难度alpha_kappa 和 kappa 出现在 regret 界的对数因子中
3. 与 [[observable-operator-model|OOM]] 框架紧密结合
## 参考
- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
- [[observable-operator-model|OOM]]
- [[partially-observable-markov-game|POMG]]