2.7 KiB
2.7 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Learning to Adapt: Representation-Based RL for Multi-Task Skill Transfer | 2026-06-17 | 2026-06-17 | paper |
|
|
high |
RepMT-SAC: 基于表征的多任务强化学习技能迁移
Aryan Naveen (MIT), Haitong Ma, Haldun Balim, Na Li — Harvard SEAS, 2026 arXiv: 2606.12890 | cs.RO
核心问题
多任务 RL 中不同任务共享相同动力学(如四旋翼在不同轨迹上的飞行动力学相同),但标准 RL 将各任务独立训练,导致无法复用共享结构。如何分离任务不变动力学与任务特定奖励,实现跨任务知识复用?
方法论:RepMT-SAC
谱 MDP 分解
将任务条件 Q 函数分解为:
Q^π(s, a; τ) = ⟨φ(s, a), w^π(τ)⟩
- φ(s, a):task-invariant-representation——捕获共享动力学
- w^π(τ):task-conditioned-policy——编码任务特定奖励
关键创新:φ 与 w 被明确解耦——以往方法或混在一起、或通过隐式嵌入学习。
两阶段学习
上游阶段(Upstream):
- 从回放缓冲区联合学习 φ(s,a) 和 µ(s')(谱条件密度估计)
- 任务编码 w(τ;θ) 通过 TD 目标更新(φ 冻结后是线性回归,极稳定)
- 最大熵策略 π(a|s,τ) 从线性 Q 导出
下游阶段(Downstream):
- 冻结 φ 和 µ(任务不变动力学)
- 仅微调 w(τ_new) 和 π_new
- 大幅减少可训练参数 → 快速少样本适应
实验:四旋翼轨迹跟踪
在 IsaacSim 上评估 quadrotor-trajectory-following:
- 任务 τ = Legendre 多项式系数(轨迹参数化)
- 源任务 = 低阶多项式基
- ID 任务 = 基的凸组合
- OOD 任务 = 高阶 Legendre 多项式(外推)
| 方法 | 源任务奖励 | ID 零样本 | OOD 少样本 |
|---|---|---|---|
| SAC | 基线 | 泛化差 | 需重训 |
| CTRL-SAC | 较好 | 中等 | 中等 |
| RepMT-SAC | 最优 | +30% | 最快适应 |
优势分析
- 线性 Q 评估:φ 冻结后 Q 学习变为线性回归,训练极稳定
- 知识复用:φ 一次性学好,所有任务受益
- 快速适应:OOD 任务仅需微调 w 和 π 的小参数集
- 理论基础:谱分解保证表示的可迁移性