1.4 KiB
1.4 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||
|---|---|---|---|---|---|---|---|---|---|---|
| 任务条件策略 (Task-Conditioned Policy) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
任务条件策略 (Task-Conditioned Policy)
任务条件策略是multitask-rl 的基本抽象——策略 π(a|s,τ) 不仅依赖状态 s,也显式条件于任务 τ。
形式
π : S × T → Δ(A)
通过扩增状态 s̃ = (s, τ),使 MDP 变形为:P̃((s',τ)|(s,τ),a) = P(s'|s,a)·δ(τ)(τ 在整个 episode 中"冻结")。
为什么需要
- 同一状态 s 在不同任务 τ 下需要不同最优动作
- 策略必须区分"四旋翼在 (x,y,z) 要去轨迹 A 还是轨迹 B"
- 不能仅靠状态分辨任务意图
在 RepMT-SAC 中
在rep-mt-sac中,策略从线性 Q 函数导出(最大熵 SAC 框架):
π(a|s,τ) ∝ exp( Q(s,a;τ) / α )
= exp( ⟨φ(s,a), w(τ)⟩ / α )
任务条件性由 w(τ) 注入——φ(s,a) 是任务不变的。
任务编码方式
在四旋翼实验中,τ 被编码为:
- Legendre 多项式系数:轨迹的全局参数化
- 滑动参考窗口:未来 N 个航点的局部几何信息