Files
myWiki/concepts/posterior-lipschitz-adversary.md

50 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "后验李普希茨对手 (Posterior-Lipschitz Adversary)"
created: 2026-06-10
updated: 2026-06-10
type: concept
tags: ["multi-agent-rl", "game-theory", "adversary-modeling"]
sources: ["[[minimax-policy-regret-pomg]]"]
---
# 后验李普希茨对手 (Posterior-Lipschitz Adversary)
**Posterior-Lipschitz 对手**是 [[minimax-policy-regret-pomg|Arora (2026)]] 对 POMG 中自适应对手的核心结构假设:对手响应随学习者策略平滑变化。
## 形式化定义
存在 L >= 0使得对于所有策略块 pi, nu
```
|| g_h(·|tau_B, pi) - g_h(·|tau_B, nu) ||_1
<= L * max_i || S_ref(pi_i) - S_ref(nu_i) ||_1
```
其中 S_ref 是通过**参考对手策略** mu_ref 计算的后验预测算子。
## 为什么需要参考策略解耦
直接条件"对手响应 Lipschitz 于学习者策略"存在循环:
- 对手响应依赖于学习者策略
- 但平滑性条件本身需要陈述对手响应的性质
**解耦方案**:使用与学习者无关的固定参考策略 mu_ref如均匀分布通过参考动力学计算 S_ref以此为桥梁定义 Lipschitz 条件。
## 满足条件的对手类型
- 在固定世界模型下对学习者策略的平滑估计做 best-response
- 使用有界步长的梯度更新
- 任何对策略变化平滑响应的对手
## 为什么重要
Posterior-Lipschitz 条件使得:
- 策略后悔的传输成本被控制(仅 polylog(T)
- epoch-based 算法每次切换策略的后悔可被 bound
- [[policy-regret|策略后悔]]的分析成为可能
## 参考
- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
- [[policy-regret|Policy Regret]]
- [[adaptive-adversary|Adaptive Adversary]]