20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/upstream-downstream-learning.md
+++ b/concepts/upstream-downstream-learning.md
@@ -0,0 +1,46 @@
+---
+title: "上游-下游学习 (Upstream-Downstream Learning)"
+created: 2026-06-17
+updated: 2026-06-17
+type: concept
+tags: [transfer-learning, multi-task, paradigm, meta-learning]
+sources: [raw/papers/naveen-repmt-sac-2026.md]
+confidence: high
+---
+
+# 上游-下游学习 (Upstream-Downstream Learning)
+
+上游-下游学习是[[repmt-sac|RepMT-SAC]]采用的**两阶段迁移范式**——先学习可复用表征，再在冻结表征上快速适应新任务。
+
+## 上游阶段 (Upstream)
+
+**目标**：学习任务不变表征
+
+- 在多个源任务 `{τ₁, ..., τ_k}` 上联合训练
+- 学习 [[task-invariant-representation|φ(s,a)]] 和辅助表征 µ(s')（谱条件密度估计）
+- 同时学习任务编码 w(τ;θ) 和策略 π
+- φ 学好后，所有任务的 Q 学习退化为线性回归
+
+## 下游阶段 (Downstream)
+
+**目标**：快速适应新任务
+
+- **冻结** φ 和 µ（任务不变动力学不再需要重学）
+- 仅**微调** w(τ_new) 和 π_new
+- 参数集大幅缩小 → 少样本即可收敛
+- 支持零样本（ID 任务）和少样本（OOD 任务）
+
+## 与元学习的区别
+
+| 维度 | MAML/元学习 | 上游-下游 |
+|------|-----------|----------|
+| 表征 | 隐式梯度适配 | 显式谱分解 |
+| 冻结 | 不冻结，需反向传播 | φ 冻结，w 轻量 |
+| 适应速度 | 需要梯度步骤 | 线性回归 + 策略微调 |
+| 理论保证 | 经验性 | 谱分解保证 |
+
+## 参考
+
+- [[task-invariant-representation|任务不变表征]]
+- [[spectral-mdp-decomposition|谱 MDP 分解]]
+- [[rep-mt-sac|RepMT-SAC]]