20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/papers/repmt-sac.md
+++ b/papers/repmt-sac.md
@@ -0,0 +1,77 @@
+---
+title: "Learning to Adapt: Representation-Based RL for Multi-Task Skill Transfer"
+created: 2026-06-17
+updated: 2026-06-17
+type: paper
+tags: [reinforcement-learning, multi-task, robot-control, representation-learning, transfer-learning]
+sources: [raw/papers/naveen-repmt-sac-2026.md]
+confidence: high
+---
+
+# RepMT-SAC: 基于表征的多任务强化学习技能迁移
+
+> Aryan Naveen (MIT), Haitong Ma, Haldun Balim, Na Li — Harvard SEAS, 2026
+> arXiv: [2606.12890](https://arxiv.org/abs/2606.12890) | cs.RO
+
+## 核心问题
+
+多任务 RL 中不同任务共享相同动力学（如四旋翼在不同轨迹上的飞行动力学相同），但标准 RL 将各任务独立训练，导致**无法复用共享结构**。如何分离任务不变动力学与任务特定奖励，实现跨任务知识复用？
+
+## 方法论：RepMT-SAC
+
+### 谱 MDP 分解
+
+将任务条件 Q 函数分解为：
+
+```
+Q^π(s, a; τ) = ⟨φ(s, a), w^π(τ)⟩
+```
+
+- **φ(s, a)**：[[task-invariant-representation|任务不变表征]]——捕获共享动力学
+- **w^π(τ)**：[[task-conditioned-policy|任务条件权重]]——编码任务特定奖励
+
+关键创新：φ 与 w 被**明确解耦**——以往方法或混在一起、或通过隐式嵌入学习。
+
+### 两阶段学习
+
+**上游阶段（Upstream）**：
+
+1. 从回放缓冲区联合学习 φ(s,a) 和 µ(s')（谱条件密度估计）
+2. 任务编码 w(τ;θ) 通过 TD 目标更新（φ 冻结后是**线性回归**，极稳定）
+3. 最大熵策略 π(a|s,τ) 从线性 Q 导出
+
+**下游阶段（Downstream）**：
+
+1. **冻结** φ 和 µ（任务不变动力学）
+2. 仅**微调** w(τ_new) 和 π_new
+3. 大幅减少可训练参数 → 快速少样本适应
+
+## 实验：四旋翼轨迹跟踪
+
+在 IsaacSim 上评估 [[quadrotor-trajectory-following|四旋翼轨迹跟踪]]：
+
+- 任务 τ = Legendre 多项式系数（轨迹参数化）
+- 源任务 = 低阶多项式基
+- ID 任务 = 基的凸组合
+- OOD 任务 = 高阶 Legendre 多项式（外推）
+
+| 方法 | 源任务奖励 | ID 零样本 | OOD 少样本 |
+|------|----------|----------|----------|
+| SAC | 基线 | 泛化差 | 需重训 |
+| CTRL-SAC | 较好 | 中等 | 中等 |
+| **RepMT-SAC** | **最优** | **+30%** | **最快适应** |
+
+## 优势分析
+
+- **线性 Q 评估**：φ 冻结后 Q 学习变为线性回归，训练极稳定
+- **知识复用**：φ 一次性学好，所有任务受益
+- **快速适应**：OOD 任务仅需微调 w 和 π 的小参数集
+- **理论基础**：谱分解保证表示的可迁移性
+
+## 参考
+
+- [[spectral-mdp-decomposition|谱 MDP 分解]]
+- [[multitask-rl|多任务 RL]]
+- [[soft-actor-critic|SAC]]
+- [[few-shot-learning|少样本学习]]
+- 来源：[原始存档](raw/papers/naveen-repmt-sac-2026.md)