1.5 KiB
1.5 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||
|---|---|---|---|---|---|---|---|---|---|---|
| 任务分布 (Task Distribution) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
任务分布 (Task Distribution)
任务分布 µ ∈ Δ(T) 是multitask-rl 中任务空间的概率分布——定义了 agent 在训练和测试中可能遇到的 MDP。
形式
任务 τ ~ µ 诱导一个 MDP:
M(τ) = (S, A, r_τ, P, ρ, γ)
- S, A, P, ρ, γ 任务不变(共享)
- r_τ 任务特定(变化)
分布类型
在repmt-sac中:
- 源任务(source):训练时采样的任务(低阶 Legendre 多项式基)
- 分布内任务(in-distribution, ID):µ 支持内的新任务(基的凸组合)
- 分布外任务(out-of-distribution, OOD):µ 支持外的新任务(高阶多项式外推)
泛化层次
| 任务类型 | 要求 | RepMT-SAC 性能 |
|---|---|---|
| 源任务 | 标准训练 | 最优(共享 φ 受益) |
| ID | 零样本泛化 | 强(w 的线性结构允许插值) |
| OOD | 少样本适应 | 快(仅微调 w 和 π) |
多任务目标
J(π) = E_{τ~µ} E_{s₀~ρ} [V^π(s₀;τ)]
直接在任务分布上最大化期望回报——RepMT-SAC 通过共享 φ 使所有任务联合受益。