20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/task-distribution.md
+++ b/concepts/task-distribution.md
@@ -0,0 +1,54 @@
+---
+title: "任务分布 (Task Distribution)"
+created: 2026-06-17
+updated: 2026-06-17
+type: concept
+tags: [multi-task, reinforcement-learning, generalization]
+sources: [raw/papers/naveen-repmt-sac-2026.md]
+confidence: high
+---
+
+# 任务分布 (Task Distribution)
+
+任务分布 µ ∈ Δ(T) 是[[multitask-rl|多任务 RL]] 中**任务空间的概率分布**——定义了 agent 在训练和测试中可能遇到的 MDP。
+
+## 形式
+
+任务 τ ~ µ 诱导一个 MDP：
+
+```
+M(τ) = (S, A, r_τ, P, ρ, γ)
+```
+
+- S, A, P, ρ, γ 任务不变（共享）
+- r_τ 任务特定（变化）
+
+## 分布类型
+
+在[[repmt-sac|RepMT-SAC]]中：
+
+- **源任务**（source）：训练时采样的任务（低阶 Legendre 多项式基）
+- **分布内任务**（in-distribution, ID）：µ 支持内的新任务（基的凸组合）
+- **分布外任务**（out-of-distribution, OOD）：µ 支持外的新任务（高阶多项式外推）
+
+## 泛化层次
+
+| 任务类型 | 要求 | RepMT-SAC 性能 |
+|---------|------|---------------|
+| 源任务 | 标准训练 | 最优（共享 φ 受益） |
+| ID | 零样本泛化 | 强（w 的线性结构允许插值） |
+| OOD | 少样本适应 | 快（仅微调 w 和 π） |
+
+## 多任务目标
+
+```
+J(π) = E_{τ~µ} E_{s₀~ρ} [V^π(s₀;τ)]
+```
+
+直接在任务分布上最大化期望回报——RepMT-SAC 通过共享 φ 使所有任务联合受益。
+
+## 参考
+
+- [[multitask-rl|多任务 RL]]
+- [[task-conditioned-policy|任务条件策略]]
+- [[rep-mt-sac|RepMT-SAC]]