SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.8 KiB

Raw Blame History

title, created, type

title	created	type
RepMT-SAC 论文集成 Review	2026-06-17	review

📌 基本信息

论文：Learning to Adapt: Representation-Based RL for Multi-Task Skill Transfer
作者：Aryan Naveen (MIT), Haitong Ma, Haldun Balim, Na Li — Harvard SEAS
领域：cs.RO / Multi-Task RL
arXiv：2606.12890v1 (2026-06-11)

🎯 核心概念

spectral-mdp-decomposition — Q(s,a;τ) = ⟨φ(s,a), w(τ)⟩，φ 任务不变，w 任务特定
task-invariant-representation — 对比式条件密度估计学习共享动力学
rep-mt-sac — 两阶段 SAC：上游学 φ，下游冻 φ 微调 w
quadrotor-trajectory-following — Legendre 多项式参数化的物理验证

🔗 概念网络

Spectral MDP Decomposition → Task-Invariant Repr (φ)
         ↓                           ↓
Task Distribution (µ) → RepMT-SAC ← Soft Actor-Critic
         ↓                           ↓
Task-Conditioned Policy → Upstream-Downstream Learning
         ↓
Quadrotor Trajectory Following

关联已有知识：通过 multitask-rl 和 few-shot-learning 与已有 wiki 概念连接。

📚 Wiki 集成

新增页面：10 个（1 论文 + 8 概念 + 1 raw）
总规模：892 → 901 页（+9）
新覆盖：cs.RO / 机器人控制

💡 关键洞察

φ 冻结后 Q 学习变成线性回归是 RepMT-SAC 最优雅的工程特性——下游适应极快且极稳定，避免了深层 RL 在新任务上常见的训练不稳定。
谱分解的推广是 subtle 但重要的：将 w 从"固定向量"提升为"任务的显式函数" w(τ)，使表示真正多任务化而不只是多任务共享参数。