SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.3 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

RepMT-SAC

2026-06-17

2026-06-17

concept

reinforcement-learning

multi-task

representation-learning

algorithm

raw/papers/naveen-repmt-sac-2026.md

high

RepMT-SAC: 表征多任务 SAC

RepMT-SAC 是 repmt-sac 提出的多任务 RL 算法——在 soft-actor-critic 基础上引入 spectral-mdp-decomposition 解耦任务不变动力学与任务特定目标。

核心分解

Q(s,a;τ) = ⟨φ(s,a), w(τ)⟩

φ(s,a)：任务不变表征（共享动力学）
w(τ)：任务条件编码（特定奖励）

两阶段

上游（Upstream）

联合学习 φ, µ（辅助表征）和 w(τ;θ)
TD 目标在 φ 上线性 → 训练极稳定
最大熵策略 π(a|s,τ) 从线性 Q 导出

下游（Downstream）

φ, µ 冻结
仅微调 w(τ_new) 和 π_new
OOD 任务少样本快速适应

关键优势

维度	标准 SAC	RepMT-SAC
任务关系	独立	共享 φ, 特化 w
Q 学习	非线性	φ 冻结后线性
OOD 适应	需重训	微调少量参数
理论基础	无	谱分解保证

参考