1.8 KiB
1.8 KiB
title, created, type
| title | created | type |
|---|---|---|
| RepMT-SAC 论文集成 Review | 2026-06-17 | review |
📌 基本信息
- 论文:Learning to Adapt: Representation-Based RL for Multi-Task Skill Transfer
- 作者:Aryan Naveen (MIT), Haitong Ma, Haldun Balim, Na Li — Harvard SEAS
- 领域:cs.RO / Multi-Task RL
- arXiv:2606.12890v1 (2026-06-11)
🎯 核心概念
- spectral-mdp-decomposition — Q(s,a;τ) = ⟨φ(s,a), w(τ)⟩,φ 任务不变,w 任务特定
- task-invariant-representation — 对比式条件密度估计学习共享动力学
- rep-mt-sac — 两阶段 SAC:上游学 φ,下游冻 φ 微调 w
- quadrotor-trajectory-following — Legendre 多项式参数化的物理验证
🔗 概念网络
Spectral MDP Decomposition → Task-Invariant Repr (φ)
↓ ↓
Task Distribution (µ) → RepMT-SAC ← Soft Actor-Critic
↓ ↓
Task-Conditioned Policy → Upstream-Downstream Learning
↓
Quadrotor Trajectory Following
关联已有知识:通过 multitask-rl 和 few-shot-learning 与已有 wiki 概念连接。
📚 Wiki 集成
- 新增页面:10 个(1 论文 + 8 概念 + 1 raw)
- 总规模:892 → 901 页(+9)
- 新覆盖:cs.RO / 机器人控制
💡 关键洞察
-
φ 冻结后 Q 学习变成线性回归是 RepMT-SAC 最优雅的工程特性——下游适应极快且极稳定,避免了深层 RL 在新任务上常见的训练不稳定。
-
谱分解的推广是 subtle 但重要的:将 w 从"固定向量"提升为"任务的显式函数" w(τ),使表示真正多任务化而不只是多任务共享参数。