Files
myWiki/concepts/spectral-mdp-decomposition.md

1.4 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
谱 MDP 分解 (Spectral MDP Decomposition) 2026-06-17 2026-06-17 concept
reinforcement-learning
theory
representation-learning
mdp
raw/papers/naveen-repmt-sac-2026.md
high

谱 MDP 分解 (Spectral MDP Decomposition)

谱 MDP 分解将 MDP 的奖励函数和 Q 函数表示为特征映射 φ 的线性组合repmt-sac 将其推广到多任务设置——φ 任务不变,权重 w 任务特定。

定义

MDP 允许谱分解,若存在:

r(s,a,τ) = ⟨φ(s,a), θ(τ)⟩    (奖励分解)
Q^π(s,a;τ) = ⟨φ(s,a), w^π(τ)⟩   Q 函数分解)

关键推广

传统谱分解(如 CTRL假设 w 是固定向量。RepMT-SAC 将 w(τ) 推广为任务的显式函数

维度 单任务谱分解 多任务推广
φ(s,a) 任务特定 任务不变
w 固定向量 w(τ) 显式依赖任务
泛化 零样本 + 少样本

学习方式

使用谱条件密度估计近似学习 φ 和 µ(s')

min_{φ,µ} -E[ log (exp⟨φ(s,a),µ(s')⟩ / Σ exp⟨φ(s,a),µ(s'')⟩) ]

类似对比学习的 softmax 交叉熵,使 φ 和 µ 的内积近似转移密度 P(s'|s,a)。

参考