--- title: "任务分布 (Task Distribution)" created: 2026-06-17 updated: 2026-06-17 type: concept tags: [multi-task, reinforcement-learning, generalization] sources: [raw/papers/naveen-repmt-sac-2026.md] confidence: high --- # 任务分布 (Task Distribution) 任务分布 µ ∈ Δ(T) 是[[multitask-rl|多任务 RL]] 中**任务空间的概率分布**——定义了 agent 在训练和测试中可能遇到的 MDP。 ## 形式 任务 τ ~ µ 诱导一个 MDP: ``` M(τ) = (S, A, r_τ, P, ρ, γ) ``` - S, A, P, ρ, γ 任务不变(共享) - r_τ 任务特定(变化) ## 分布类型 在[[repmt-sac|RepMT-SAC]]中: - **源任务**(source):训练时采样的任务(低阶 Legendre 多项式基) - **分布内任务**(in-distribution, ID):µ 支持内的新任务(基的凸组合) - **分布外任务**(out-of-distribution, OOD):µ 支持外的新任务(高阶多项式外推) ## 泛化层次 | 任务类型 | 要求 | RepMT-SAC 性能 | |---------|------|---------------| | 源任务 | 标准训练 | 最优(共享 φ 受益) | | ID | 零样本泛化 | 强(w 的线性结构允许插值) | | OOD | 少样本适应 | 快(仅微调 w 和 π) | ## 多任务目标 ``` J(π) = E_{τ~µ} E_{s₀~ρ} [V^π(s₀;τ)] ``` 直接在任务分布上最大化期望回报——RepMT-SAC 通过共享 φ 使所有任务联合受益。 ## 参考 - [[multitask-rl|多任务 RL]] - [[task-conditioned-policy|任务条件策略]] - [[rep-mt-sac|RepMT-SAC]]