SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

2.7 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

Learning to Adapt: Representation-Based RL for Multi-Task Skill Transfer

2026-06-17

2026-06-17

paper

reinforcement-learning

multi-task

robot-control

representation-learning

transfer-learning

raw/papers/naveen-repmt-sac-2026.md

high

RepMT-SAC: 基于表征的多任务强化学习技能迁移

Aryan Naveen (MIT), Haitong Ma, Haldun Balim, Na Li — Harvard SEAS, 2026 arXiv: 2606.12890 | cs.RO

核心问题

多任务 RL 中不同任务共享相同动力学（如四旋翼在不同轨迹上的飞行动力学相同），但标准 RL 将各任务独立训练，导致无法复用共享结构。如何分离任务不变动力学与任务特定奖励，实现跨任务知识复用？

方法论：RepMT-SAC

谱 MDP 分解

将任务条件 Q 函数分解为：

Q^π(s, a; τ) = ⟨φ(s, a), w^π(τ)⟩

φ(s, a)：task-invariant-representation——捕获共享动力学
w^π(τ)：task-conditioned-policy——编码任务特定奖励

关键创新：φ 与 w 被明确解耦——以往方法或混在一起、或通过隐式嵌入学习。

两阶段学习

上游阶段（Upstream）：

从回放缓冲区联合学习 φ(s,a) 和 µ(s')（谱条件密度估计）
任务编码 w(τ;θ) 通过 TD 目标更新（φ 冻结后是线性回归，极稳定）
最大熵策略 π(a|s,τ) 从线性 Q 导出

下游阶段（Downstream）：

冻结 φ 和 µ（任务不变动力学）
仅微调 w(τ_new) 和 π_new
大幅减少可训练参数 → 快速少样本适应

实验：四旋翼轨迹跟踪

在 IsaacSim 上评估 quadrotor-trajectory-following：

任务 τ = Legendre 多项式系数（轨迹参数化）
源任务 = 低阶多项式基
ID 任务 = 基的凸组合
OOD 任务 = 高阶 Legendre 多项式（外推）

方法	源任务奖励	ID 零样本	OOD 少样本
SAC	基线	泛化差	需重训
CTRL-SAC	较好	中等	中等
RepMT-SAC	最优	+30%	最快适应

优势分析

线性 Q 评估：φ 冻结后 Q 学习变为线性回归，训练极稳定
知识复用：φ 一次性学好，所有任务受益
快速适应：OOD 任务仅需微调 w 和 π 的小参数集
理论基础：谱分解保证表示的可迁移性

参考