Files
myWiki/concepts/task-distribution.md

55 lines
1.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "任务分布 (Task Distribution)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [multi-task, reinforcement-learning, generalization]
sources: [raw/papers/naveen-repmt-sac-2026.md]
confidence: high
---
# 任务分布 (Task Distribution)
任务分布 µ ∈ Δ(T) 是[[multitask-rl|多任务 RL]] 中**任务空间的概率分布**——定义了 agent 在训练和测试中可能遇到的 MDP。
## 形式
任务 τ ~ µ 诱导一个 MDP
```
M(τ) = (S, A, r_τ, P, ρ, γ)
```
- S, A, P, ρ, γ 任务不变(共享)
- r_τ 任务特定(变化)
## 分布类型
在[[repmt-sac|RepMT-SAC]]中:
- **源任务**source训练时采样的任务低阶 Legendre 多项式基)
- **分布内任务**in-distribution, IDµ 支持内的新任务(基的凸组合)
- **分布外任务**out-of-distribution, OODµ 支持外的新任务(高阶多项式外推)
## 泛化层次
| 任务类型 | 要求 | RepMT-SAC 性能 |
|---------|------|---------------|
| 源任务 | 标准训练 | 最优(共享 φ 受益) |
| ID | 零样本泛化 | 强w 的线性结构允许插值) |
| OOD | 少样本适应 | 快(仅微调 w 和 π) |
## 多任务目标
```
J(π) = E_{τ~µ} E_{s₀~ρ} [V^π(s₀;τ)]
```
直接在任务分布上最大化期望回报——RepMT-SAC 通过共享 φ 使所有任务联合受益。
## 参考
- [[multitask-rl|多任务 RL]]
- [[task-conditioned-policy|任务条件策略]]
- [[rep-mt-sac|RepMT-SAC]]