SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.4 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

任务不变表征 (Task-Invariant Representation)

2026-06-17

2026-06-17

concept

representation-learning

multi-task

transfer-learning

reinforcement-learning

raw/papers/naveen-repmt-sac-2026.md

high

任务不变表征 (Task-Invariant Representation)

任务不变表征是repmt-sac的核心——捕获所有任务共享的动力学结构，与奖励函数无关。

形式

在spectral-mdp-decomposition中：

Q(s,a;τ) = ⟨φ(s,a), w(τ)⟩

φ(s,a)：任务不变 → 捕获 P(s'|s,a) 的结构
w(τ)：任务特定 → 编码 r(s,a,τ) 的信息

为什么可行

多任务 MDP 设置假设所有任务共享动力学 P 和状态-动作空间，仅在奖励函数上不同。例如四旋翼在所有轨迹上的物理动力学不变。

学习

使用对比式条件密度估计学习 φ 和辅助表征 µ(s')：

P(s'|s,a) ≈ exp⟨φ(s,a), µ(s')⟩ / Z

学到的 φ 允许任何任务的 Q 通过线性组合 w(τ)⊤ φ(s,a) 表达。

冻结的优势

下游适应时冻结 φ：

新任务仅需学习 w(τ_new)（低维参数）
Q 学习退化为线性回归（极稳定）
少样本即可适应

参考