20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/posterior-lipschitz-adversary.md
+++ b/concepts/posterior-lipschitz-adversary.md
@@ -0,0 +1,49 @@
+---
+title: "后验李普希茨对手 (Posterior-Lipschitz Adversary)"
+created: 2026-06-10
+updated: 2026-06-10
+type: concept
+tags: ["multi-agent-rl", "game-theory", "adversary-modeling"]
+sources: ["[[minimax-policy-regret-pomg]]"]
+---
+
+# 后验李普希茨对手 (Posterior-Lipschitz Adversary)
+
+**Posterior-Lipschitz 对手**是 [[minimax-policy-regret-pomg|Arora (2026)]] 对 POMG 中自适应对手的核心结构假设：对手响应随学习者策略平滑变化。
+
+## 形式化定义
+
+存在 L >= 0，使得对于所有策略块 pi, nu：
+
+```
+|| g_h(·|tau_B, pi) - g_h(·|tau_B, nu) ||_1
+   <= L * max_i || S_ref(pi_i) - S_ref(nu_i) ||_1
+```
+
+其中 S_ref 是通过**参考对手策略** mu_ref 计算的后验预测算子。
+
+## 为什么需要参考策略解耦
+
+直接条件"对手响应 Lipschitz 于学习者策略"存在循环：
+- 对手响应依赖于学习者策略
+- 但平滑性条件本身需要陈述对手响应的性质
+
+**解耦方案**：使用与学习者无关的固定参考策略 mu_ref（如均匀分布），通过参考动力学计算 S_ref，以此为桥梁定义 Lipschitz 条件。
+
+## 满足条件的对手类型
+
+- 在固定世界模型下对学习者策略的平滑估计做 best-response
+- 使用有界步长的梯度更新
+- 任何对策略变化平滑响应的对手
+
+## 为什么重要
+
+Posterior-Lipschitz 条件使得：
+- 策略后悔的传输成本被控制（仅 polylog(T)）
+- epoch-based 算法每次切换策略的后悔可被 bound
+- [[policy-regret|策略后悔]]的分析成为可能
+
+## 参考
+- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
+- [[policy-regret|Policy Regret]]
+- [[adaptive-adversary|Adaptive Adversary]]