Files
myWiki/concepts/task-distribution.md

1.5 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
任务分布 (Task Distribution) 2026-06-17 2026-06-17 concept
multi-task
reinforcement-learning
generalization
raw/papers/naveen-repmt-sac-2026.md
high

任务分布 (Task Distribution)

任务分布 µ ∈ Δ(T) 是multitask-rl任务空间的概率分布——定义了 agent 在训练和测试中可能遇到的 MDP。

形式

任务 τ ~ µ 诱导一个 MDP

M(τ) = (S, A, r_τ, P, ρ, γ)
  • S, A, P, ρ, γ 任务不变(共享)
  • r_τ 任务特定(变化)

分布类型

repmt-sac中:

  • 源任务source训练时采样的任务低阶 Legendre 多项式基)
  • 分布内任务in-distribution, IDµ 支持内的新任务(基的凸组合)
  • 分布外任务out-of-distribution, OODµ 支持外的新任务(高阶多项式外推)

泛化层次

任务类型 要求 RepMT-SAC 性能
源任务 标准训练 最优(共享 φ 受益)
ID 零样本泛化 w 的线性结构允许插值)
OOD 少样本适应 快(仅微调 w 和 π)

多任务目标

J(π) = E_{τ~µ} E_{s₀~ρ} [V^π(s₀;τ)]

直接在任务分布上最大化期望回报——RepMT-SAC 通过共享 φ 使所有任务联合受益。

参考