SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.5 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

任务分布 (Task Distribution)

2026-06-17

2026-06-17

concept

multi-task

reinforcement-learning

generalization

raw/papers/naveen-repmt-sac-2026.md

high

任务分布 (Task Distribution)

任务分布 µ ∈ Δ(T) 是multitask-rl 中任务空间的概率分布——定义了 agent 在训练和测试中可能遇到的 MDP。

形式

任务 τ ~ µ 诱导一个 MDP：

M(τ) = (S, A, r_τ, P, ρ, γ)

S, A, P, ρ, γ 任务不变（共享）
r_τ 任务特定（变化）

分布类型

在repmt-sac中：

源任务（source）：训练时采样的任务（低阶 Legendre 多项式基）
分布内任务（in-distribution, ID）：µ 支持内的新任务（基的凸组合）
分布外任务（out-of-distribution, OOD）：µ 支持外的新任务（高阶多项式外推）

泛化层次

任务类型	要求	RepMT-SAC 性能
源任务	标准训练	最优（共享 φ 受益）
ID	零样本泛化	强（w 的线性结构允许插值）
OOD	少样本适应	快（仅微调 w 和 π）

多任务目标

J(π) = E_{τ~µ} E_{s₀~ρ} [V^π(s₀;τ)]

直接在任务分布上最大化期望回报——RepMT-SAC 通过共享 φ 使所有任务联合受益。

参考