谱 MDP 分解 (Spectral MDP Decomposition)

谱 MDP 分解将 MDP 的奖励函数和 Q 函数表示为特征映射 φ 的线性组合。repmt-sac 将其推广到多任务设置——φ 任务不变，权重 w 任务特定。

定义

MDP 允许谱分解，若存在：

r(s,a,τ) = ⟨φ(s,a), θ(τ)⟩    （奖励分解）
Q^π(s,a;τ) = ⟨φ(s,a), w^π(τ)⟩   （Q 函数分解）

传统谱分解（如 CTRL）假设 w 是固定向量。RepMT-SAC 将 w(τ) 推广为任务的显式函数：

使用谱条件密度估计近似学习 φ 和 µ(s')：

min_{φ,µ} -E[ log (exp⟨φ(s,a),µ(s')⟩ / Σ exp⟨φ(s,a),µ(s'')⟩) ]

类似对比学习的 softmax 交叉熵，使 φ 和 µ 的内积近似转移密度 P(s'|s,a)。