1.5 KiB
1.5 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 上游-下游学习 (Upstream-Downstream Learning) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
上游-下游学习 (Upstream-Downstream Learning)
上游-下游学习是repmt-sac采用的两阶段迁移范式——先学习可复用表征,再在冻结表征上快速适应新任务。
上游阶段 (Upstream)
目标:学习任务不变表征
- 在多个源任务
{τ₁, ..., τ_k}上联合训练 - 学习 task-invariant-representation 和辅助表征 µ(s')(谱条件密度估计)
- 同时学习任务编码 w(τ;θ) 和策略 π
- φ 学好后,所有任务的 Q 学习退化为线性回归
下游阶段 (Downstream)
目标:快速适应新任务
- 冻结 φ 和 µ(任务不变动力学不再需要重学)
- 仅微调 w(τ_new) 和 π_new
- 参数集大幅缩小 → 少样本即可收敛
- 支持零样本(ID 任务)和少样本(OOD 任务)
与元学习的区别
| 维度 | MAML/元学习 | 上游-下游 |
|---|---|---|
| 表征 | 隐式梯度适配 | 显式谱分解 |
| 冻结 | 不冻结,需反向传播 | φ 冻结,w 轻量 |
| 适应速度 | 需要梯度步骤 | 线性回归 + 策略微调 |
| 理论保证 | 经验性 | 谱分解保证 |