20260617:目前有914 页
This commit is contained in:
42
concepts/weak-revealing-condition.md
Normal file
42
concepts/weak-revealing-condition.md
Normal file
@@ -0,0 +1,42 @@
|
||||
---
|
||||
title: "弱揭示条件 (Weak Revealing Condition)"
|
||||
created: 2026-06-10
|
||||
updated: 2026-06-10
|
||||
type: concept
|
||||
tags: ["pomdp", "system-identification", "partial-observability"]
|
||||
sources: ["[[minimax-policy-regret-pomg]]"]
|
||||
---
|
||||
|
||||
# 弱揭示条件 (Weak Revealing Condition)
|
||||
|
||||
**Weak Revealing**(Liu et al., 2022a)是 [[partially-observable-markov-game|POMG]]/[[pomdp|POMDP]] 中关于观测信息量的结构假设,排除观测完全无信息的退化情况。
|
||||
|
||||
## 形式化定义
|
||||
|
||||
存在 kappa >= 1 和 alpha_kappa > 0,使得对于任意两个世界参数 theta, theta':
|
||||
|
||||
```
|
||||
|| O_{h:h+kappa-1}^{theta}(·|q,o,a) - O_{h:h+kappa-1}^{theta'}(·|q,o,a) ||_1
|
||||
>= alpha_kappa * || W_h^theta(o,a)·q - W_h^{theta'}(o,a)·q ||_1
|
||||
```
|
||||
|
||||
即:世界通道差异可通过 kappa 步学习者观测窗口以至少 alpha_kappa 的信号强度检测。
|
||||
|
||||
## 直觉
|
||||
|
||||
- kappa:窗口长度——需要多少步观测才能揭示动力学差异
|
||||
- alpha_kappa:信号强度——差异有多容易被检测
|
||||
|
||||
如果 kappa 很小且 alpha_kappa 很大 → 观测高度信息性 → 学习容易
|
||||
如果 kappa 很大或 alpha_kappa 很小 → 观测信息性差 → 学习困难(可能需要指数级样本)
|
||||
|
||||
## 在 POMG 中的角色
|
||||
|
||||
1. 排除"观测完全无信息"的退化 POMG(否则无法从观测数据中识别世界动力学)
|
||||
2. 量化学习难度:alpha_kappa 和 kappa 出现在 regret 界的对数因子中
|
||||
3. 与 [[observable-operator-model|OOM]] 框架紧密结合
|
||||
|
||||
## 参考
|
||||
- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
|
||||
- [[observable-operator-model|OOM]]
|
||||
- [[partially-observable-markov-game|POMG]]
|
||||
Reference in New Issue
Block a user