Files
myWiki/concepts/task-invariant-representation.md

1.4 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
任务不变表征 (Task-Invariant Representation) 2026-06-17 2026-06-17 concept
representation-learning
multi-task
transfer-learning
reinforcement-learning
raw/papers/naveen-repmt-sac-2026.md
high

任务不变表征 (Task-Invariant Representation)

任务不变表征是repmt-sac的核心——捕获所有任务共享的动力学结构,与奖励函数无关。

形式

spectral-mdp-decomposition中:

Q(s,a;τ) = ⟨φ(s,a), w(τ)⟩
  • φ(s,a):任务不变 → 捕获 P(s'|s,a) 的结构
  • w(τ):任务特定 → 编码 r(s,a,τ) 的信息

为什么可行

多任务 MDP 设置假设所有任务共享动力学 P 和状态-动作空间,仅在奖励函数上不同。例如四旋翼在所有轨迹上的物理动力学不变。

学习

使用对比式条件密度估计学习 φ 和辅助表征 µ(s')

P(s'|s,a) ≈ exp⟨φ(s,a), µ(s')⟩ / Z

学到的 φ 允许任何任务的 Q 通过线性组合 w(τ) φ(s,a) 表达。

冻结的优势

下游适应时冻结 φ:

  • 新任务仅需学习 w(τ_new)(低维参数)
  • Q 学习退化为线性回归(极稳定)
  • 少样本即可适应

参考