20260617:目前有914 页
This commit is contained in:
54
concepts/task-distribution.md
Normal file
54
concepts/task-distribution.md
Normal file
@@ -0,0 +1,54 @@
|
||||
---
|
||||
title: "任务分布 (Task Distribution)"
|
||||
created: 2026-06-17
|
||||
updated: 2026-06-17
|
||||
type: concept
|
||||
tags: [multi-task, reinforcement-learning, generalization]
|
||||
sources: [raw/papers/naveen-repmt-sac-2026.md]
|
||||
confidence: high
|
||||
---
|
||||
|
||||
# 任务分布 (Task Distribution)
|
||||
|
||||
任务分布 µ ∈ Δ(T) 是[[multitask-rl|多任务 RL]] 中**任务空间的概率分布**——定义了 agent 在训练和测试中可能遇到的 MDP。
|
||||
|
||||
## 形式
|
||||
|
||||
任务 τ ~ µ 诱导一个 MDP:
|
||||
|
||||
```
|
||||
M(τ) = (S, A, r_τ, P, ρ, γ)
|
||||
```
|
||||
|
||||
- S, A, P, ρ, γ 任务不变(共享)
|
||||
- r_τ 任务特定(变化)
|
||||
|
||||
## 分布类型
|
||||
|
||||
在[[repmt-sac|RepMT-SAC]]中:
|
||||
|
||||
- **源任务**(source):训练时采样的任务(低阶 Legendre 多项式基)
|
||||
- **分布内任务**(in-distribution, ID):µ 支持内的新任务(基的凸组合)
|
||||
- **分布外任务**(out-of-distribution, OOD):µ 支持外的新任务(高阶多项式外推)
|
||||
|
||||
## 泛化层次
|
||||
|
||||
| 任务类型 | 要求 | RepMT-SAC 性能 |
|
||||
|---------|------|---------------|
|
||||
| 源任务 | 标准训练 | 最优(共享 φ 受益) |
|
||||
| ID | 零样本泛化 | 强(w 的线性结构允许插值) |
|
||||
| OOD | 少样本适应 | 快(仅微调 w 和 π) |
|
||||
|
||||
## 多任务目标
|
||||
|
||||
```
|
||||
J(π) = E_{τ~µ} E_{s₀~ρ} [V^π(s₀;τ)]
|
||||
```
|
||||
|
||||
直接在任务分布上最大化期望回报——RepMT-SAC 通过共享 φ 使所有任务联合受益。
|
||||
|
||||
## 参考
|
||||
|
||||
- [[multitask-rl|多任务 RL]]
|
||||
- [[task-conditioned-policy|任务条件策略]]
|
||||
- [[rep-mt-sac|RepMT-SAC]]
|
||||
Reference in New Issue
Block a user