20260617:目前有914 页
This commit is contained in:
46
concepts/upstream-downstream-learning.md
Normal file
46
concepts/upstream-downstream-learning.md
Normal file
@@ -0,0 +1,46 @@
|
||||
---
|
||||
title: "上游-下游学习 (Upstream-Downstream Learning)"
|
||||
created: 2026-06-17
|
||||
updated: 2026-06-17
|
||||
type: concept
|
||||
tags: [transfer-learning, multi-task, paradigm, meta-learning]
|
||||
sources: [raw/papers/naveen-repmt-sac-2026.md]
|
||||
confidence: high
|
||||
---
|
||||
|
||||
# 上游-下游学习 (Upstream-Downstream Learning)
|
||||
|
||||
上游-下游学习是[[repmt-sac|RepMT-SAC]]采用的**两阶段迁移范式**——先学习可复用表征,再在冻结表征上快速适应新任务。
|
||||
|
||||
## 上游阶段 (Upstream)
|
||||
|
||||
**目标**:学习任务不变表征
|
||||
|
||||
- 在多个源任务 `{τ₁, ..., τ_k}` 上联合训练
|
||||
- 学习 [[task-invariant-representation|φ(s,a)]] 和辅助表征 µ(s')(谱条件密度估计)
|
||||
- 同时学习任务编码 w(τ;θ) 和策略 π
|
||||
- φ 学好后,所有任务的 Q 学习退化为线性回归
|
||||
|
||||
## 下游阶段 (Downstream)
|
||||
|
||||
**目标**:快速适应新任务
|
||||
|
||||
- **冻结** φ 和 µ(任务不变动力学不再需要重学)
|
||||
- 仅**微调** w(τ_new) 和 π_new
|
||||
- 参数集大幅缩小 → 少样本即可收敛
|
||||
- 支持零样本(ID 任务)和少样本(OOD 任务)
|
||||
|
||||
## 与元学习的区别
|
||||
|
||||
| 维度 | MAML/元学习 | 上游-下游 |
|
||||
|------|-----------|----------|
|
||||
| 表征 | 隐式梯度适配 | 显式谱分解 |
|
||||
| 冻结 | 不冻结,需反向传播 | φ 冻结,w 轻量 |
|
||||
| 适应速度 | 需要梯度步骤 | 线性回归 + 策略微调 |
|
||||
| 理论保证 | 经验性 | 谱分解保证 |
|
||||
|
||||
## 参考
|
||||
|
||||
- [[task-invariant-representation|任务不变表征]]
|
||||
- [[spectral-mdp-decomposition|谱 MDP 分解]]
|
||||
- [[rep-mt-sac|RepMT-SAC]]
|
||||
Reference in New Issue
Block a user