Files
myWiki/concepts/upstream-downstream-learning.md

47 lines
1.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "上游-下游学习 (Upstream-Downstream Learning)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [transfer-learning, multi-task, paradigm, meta-learning]
sources: [raw/papers/naveen-repmt-sac-2026.md]
confidence: high
---
# 上游-下游学习 (Upstream-Downstream Learning)
上游-下游学习是[[repmt-sac|RepMT-SAC]]采用的**两阶段迁移范式**——先学习可复用表征,再在冻结表征上快速适应新任务。
## 上游阶段 (Upstream)
**目标**:学习任务不变表征
- 在多个源任务 `{τ₁, ..., τ_k}` 上联合训练
- 学习 [[task-invariant-representation|φ(s,a)]] 和辅助表征 µ(s')(谱条件密度估计)
- 同时学习任务编码 w(τ;θ) 和策略 π
- φ 学好后,所有任务的 Q 学习退化为线性回归
## 下游阶段 (Downstream)
**目标**:快速适应新任务
- **冻结** φ 和 µ(任务不变动力学不再需要重学)
- 仅**微调** w(τ_new) 和 π_new
- 参数集大幅缩小 → 少样本即可收敛
- 支持零样本ID 任务和少样本OOD 任务)
## 与元学习的区别
| 维度 | MAML/元学习 | 上游-下游 |
|------|-----------|----------|
| 表征 | 隐式梯度适配 | 显式谱分解 |
| 冻结 | 不冻结,需反向传播 | φ 冻结w 轻量 |
| 适应速度 | 需要梯度步骤 | 线性回归 + 策略微调 |
| 理论保证 | 经验性 | 谱分解保证 |
## 参考
- [[task-invariant-representation|任务不变表征]]
- [[spectral-mdp-decomposition|谱 MDP 分解]]
- [[rep-mt-sac|RepMT-SAC]]