Files
myWiki/papers/repmt-sac.md

78 lines
2.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Learning to Adapt: Representation-Based RL for Multi-Task Skill Transfer"
created: 2026-06-17
updated: 2026-06-17
type: paper
tags: [reinforcement-learning, multi-task, robot-control, representation-learning, transfer-learning]
sources: [raw/papers/naveen-repmt-sac-2026.md]
confidence: high
---
# RepMT-SAC: 基于表征的多任务强化学习技能迁移
> Aryan Naveen (MIT), Haitong Ma, Haldun Balim, Na Li — Harvard SEAS, 2026
> arXiv: [2606.12890](https://arxiv.org/abs/2606.12890) | cs.RO
## 核心问题
多任务 RL 中不同任务共享相同动力学(如四旋翼在不同轨迹上的飞行动力学相同),但标准 RL 将各任务独立训练,导致**无法复用共享结构**。如何分离任务不变动力学与任务特定奖励,实现跨任务知识复用?
## 方法论RepMT-SAC
### 谱 MDP 分解
将任务条件 Q 函数分解为:
```
Q^π(s, a; τ) = ⟨φ(s, a), w^π(τ)⟩
```
- **φ(s, a)**[[task-invariant-representation|任务不变表征]]——捕获共享动力学
- **w^π(τ)**[[task-conditioned-policy|任务条件权重]]——编码任务特定奖励
关键创新:φ 与 w 被**明确解耦**——以往方法或混在一起、或通过隐式嵌入学习。
### 两阶段学习
**上游阶段Upstream**
1. 从回放缓冲区联合学习 φ(s,a) 和 µ(s')(谱条件密度估计)
2. 任务编码 w(τ;θ) 通过 TD 目标更新(φ 冻结后是**线性回归**,极稳定)
3. 最大熵策略 π(a|s,τ) 从线性 Q 导出
**下游阶段Downstream**
1. **冻结** φ 和 µ(任务不变动力学)
2. 仅**微调** w(τ_new) 和 π_new
3. 大幅减少可训练参数 → 快速少样本适应
## 实验:四旋翼轨迹跟踪
在 IsaacSim 上评估 [[quadrotor-trajectory-following|四旋翼轨迹跟踪]]
- 任务 τ = Legendre 多项式系数(轨迹参数化)
- 源任务 = 低阶多项式基
- ID 任务 = 基的凸组合
- OOD 任务 = 高阶 Legendre 多项式(外推)
| 方法 | 源任务奖励 | ID 零样本 | OOD 少样本 |
|------|----------|----------|----------|
| SAC | 基线 | 泛化差 | 需重训 |
| CTRL-SAC | 较好 | 中等 | 中等 |
| **RepMT-SAC** | **最优** | **+30%** | **最快适应** |
## 优势分析
- **线性 Q 评估**:φ 冻结后 Q 学习变为线性回归,训练极稳定
- **知识复用**:φ 一次性学好,所有任务受益
- **快速适应**OOD 任务仅需微调 w 和 π 的小参数集
- **理论基础**:谱分解保证表示的可迁移性
## 参考
- [[spectral-mdp-decomposition|谱 MDP 分解]]
- [[multitask-rl|多任务 RL]]
- [[soft-actor-critic|SAC]]
- [[few-shot-learning|少样本学习]]
- 来源:[原始存档](raw/papers/naveen-repmt-sac-2026.md)