SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.7 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

后验李普希茨对手 (Posterior-Lipschitz Adversary)

2026-06-10

2026-06-10

concept

multi-agent-rl

game-theory

adversary-modeling

minimax-policy-regret-pomg

后验李普希茨对手 (Posterior-Lipschitz Adversary)

Posterior-Lipschitz 对手是 minimax-policy-regret-pomg 对 POMG 中自适应对手的核心结构假设：对手响应随学习者策略平滑变化。

形式化定义

存在 L >= 0，使得对于所有策略块 pi, nu：

|| g_h(·|tau_B, pi) - g_h(·|tau_B, nu) ||_1
   <= L * max_i || S_ref(pi_i) - S_ref(nu_i) ||_1

其中 S_ref 是通过参考对手策略 mu_ref 计算的后验预测算子。

为什么需要参考策略解耦

直接条件"对手响应 Lipschitz 于学习者策略"存在循环：

对手响应依赖于学习者策略
但平滑性条件本身需要陈述对手响应的性质

解耦方案：使用与学习者无关的固定参考策略 mu_ref（如均匀分布），通过参考动力学计算 S_ref，以此为桥梁定义 Lipschitz 条件。

满足条件的对手类型

在固定世界模型下对学习者策略的平滑估计做 best-response
使用有界步长的梯度更新
任何对策略变化平滑响应的对手

为什么重要

Posterior-Lipschitz 条件使得：

策略后悔的传输成本被控制（仅 polylog(T)）
epoch-based 算法每次切换策略的后悔可被 bound
policy-regret的分析成为可能

参考