50 lines
1.7 KiB
Markdown
50 lines
1.7 KiB
Markdown
---
|
||
title: "后验李普希茨对手 (Posterior-Lipschitz Adversary)"
|
||
created: 2026-06-10
|
||
updated: 2026-06-10
|
||
type: concept
|
||
tags: ["multi-agent-rl", "game-theory", "adversary-modeling"]
|
||
sources: ["[[minimax-policy-regret-pomg]]"]
|
||
---
|
||
|
||
# 后验李普希茨对手 (Posterior-Lipschitz Adversary)
|
||
|
||
**Posterior-Lipschitz 对手**是 [[minimax-policy-regret-pomg|Arora (2026)]] 对 POMG 中自适应对手的核心结构假设:对手响应随学习者策略平滑变化。
|
||
|
||
## 形式化定义
|
||
|
||
存在 L >= 0,使得对于所有策略块 pi, nu:
|
||
|
||
```
|
||
|| g_h(·|tau_B, pi) - g_h(·|tau_B, nu) ||_1
|
||
<= L * max_i || S_ref(pi_i) - S_ref(nu_i) ||_1
|
||
```
|
||
|
||
其中 S_ref 是通过**参考对手策略** mu_ref 计算的后验预测算子。
|
||
|
||
## 为什么需要参考策略解耦
|
||
|
||
直接条件"对手响应 Lipschitz 于学习者策略"存在循环:
|
||
- 对手响应依赖于学习者策略
|
||
- 但平滑性条件本身需要陈述对手响应的性质
|
||
|
||
**解耦方案**:使用与学习者无关的固定参考策略 mu_ref(如均匀分布),通过参考动力学计算 S_ref,以此为桥梁定义 Lipschitz 条件。
|
||
|
||
## 满足条件的对手类型
|
||
|
||
- 在固定世界模型下对学习者策略的平滑估计做 best-response
|
||
- 使用有界步长的梯度更新
|
||
- 任何对策略变化平滑响应的对手
|
||
|
||
## 为什么重要
|
||
|
||
Posterior-Lipschitz 条件使得:
|
||
- 策略后悔的传输成本被控制(仅 polylog(T))
|
||
- epoch-based 算法每次切换策略的后悔可被 bound
|
||
- [[policy-regret|策略后悔]]的分析成为可能
|
||
|
||
## 参考
|
||
- [[minimax-policy-regret-pomg|Minimax-Optimal Policy Regret in POMGs]]
|
||
- [[policy-regret|Policy Regret]]
|
||
- [[adaptive-adversary|Adaptive Adversary]]
|