20260617:目前有914 页
This commit is contained in:
77
papers/repmt-sac.md
Normal file
77
papers/repmt-sac.md
Normal file
@@ -0,0 +1,77 @@
|
||||
---
|
||||
title: "Learning to Adapt: Representation-Based RL for Multi-Task Skill Transfer"
|
||||
created: 2026-06-17
|
||||
updated: 2026-06-17
|
||||
type: paper
|
||||
tags: [reinforcement-learning, multi-task, robot-control, representation-learning, transfer-learning]
|
||||
sources: [raw/papers/naveen-repmt-sac-2026.md]
|
||||
confidence: high
|
||||
---
|
||||
|
||||
# RepMT-SAC: 基于表征的多任务强化学习技能迁移
|
||||
|
||||
> Aryan Naveen (MIT), Haitong Ma, Haldun Balim, Na Li — Harvard SEAS, 2026
|
||||
> arXiv: [2606.12890](https://arxiv.org/abs/2606.12890) | cs.RO
|
||||
|
||||
## 核心问题
|
||||
|
||||
多任务 RL 中不同任务共享相同动力学(如四旋翼在不同轨迹上的飞行动力学相同),但标准 RL 将各任务独立训练,导致**无法复用共享结构**。如何分离任务不变动力学与任务特定奖励,实现跨任务知识复用?
|
||||
|
||||
## 方法论:RepMT-SAC
|
||||
|
||||
### 谱 MDP 分解
|
||||
|
||||
将任务条件 Q 函数分解为:
|
||||
|
||||
```
|
||||
Q^π(s, a; τ) = ⟨φ(s, a), w^π(τ)⟩
|
||||
```
|
||||
|
||||
- **φ(s, a)**:[[task-invariant-representation|任务不变表征]]——捕获共享动力学
|
||||
- **w^π(τ)**:[[task-conditioned-policy|任务条件权重]]——编码任务特定奖励
|
||||
|
||||
关键创新:φ 与 w 被**明确解耦**——以往方法或混在一起、或通过隐式嵌入学习。
|
||||
|
||||
### 两阶段学习
|
||||
|
||||
**上游阶段(Upstream)**:
|
||||
|
||||
1. 从回放缓冲区联合学习 φ(s,a) 和 µ(s')(谱条件密度估计)
|
||||
2. 任务编码 w(τ;θ) 通过 TD 目标更新(φ 冻结后是**线性回归**,极稳定)
|
||||
3. 最大熵策略 π(a|s,τ) 从线性 Q 导出
|
||||
|
||||
**下游阶段(Downstream)**:
|
||||
|
||||
1. **冻结** φ 和 µ(任务不变动力学)
|
||||
2. 仅**微调** w(τ_new) 和 π_new
|
||||
3. 大幅减少可训练参数 → 快速少样本适应
|
||||
|
||||
## 实验:四旋翼轨迹跟踪
|
||||
|
||||
在 IsaacSim 上评估 [[quadrotor-trajectory-following|四旋翼轨迹跟踪]]:
|
||||
|
||||
- 任务 τ = Legendre 多项式系数(轨迹参数化)
|
||||
- 源任务 = 低阶多项式基
|
||||
- ID 任务 = 基的凸组合
|
||||
- OOD 任务 = 高阶 Legendre 多项式(外推)
|
||||
|
||||
| 方法 | 源任务奖励 | ID 零样本 | OOD 少样本 |
|
||||
|------|----------|----------|----------|
|
||||
| SAC | 基线 | 泛化差 | 需重训 |
|
||||
| CTRL-SAC | 较好 | 中等 | 中等 |
|
||||
| **RepMT-SAC** | **最优** | **+30%** | **最快适应** |
|
||||
|
||||
## 优势分析
|
||||
|
||||
- **线性 Q 评估**:φ 冻结后 Q 学习变为线性回归,训练极稳定
|
||||
- **知识复用**:φ 一次性学好,所有任务受益
|
||||
- **快速适应**:OOD 任务仅需微调 w 和 π 的小参数集
|
||||
- **理论基础**:谱分解保证表示的可迁移性
|
||||
|
||||
## 参考
|
||||
|
||||
- [[spectral-mdp-decomposition|谱 MDP 分解]]
|
||||
- [[multitask-rl|多任务 RL]]
|
||||
- [[soft-actor-critic|SAC]]
|
||||
- [[few-shot-learning|少样本学习]]
|
||||
- 来源:[原始存档](raw/papers/naveen-repmt-sac-2026.md)
|
||||
Reference in New Issue
Block a user