Files
myWiki/concepts/task-conditioned-policy.md

51 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "任务条件策略 (Task-Conditioned Policy)"
created: 2026-06-17
updated: 2026-06-17
type: concept
tags: [reinforcement-learning, multi-task, policy]
sources: [raw/papers/naveen-repmt-sac-2026.md]
confidence: high
---
# 任务条件策略 (Task-Conditioned Policy)
任务条件策略是[[multitask-rl|多任务 RL]] 的基本抽象——策略 π(a|s,τ) 不仅依赖状态 s也**显式条件于任务 τ**。
## 形式
```
π : S × T → Δ(A)
```
通过扩增状态 `s̃ = (s, τ)`,使 MDP 变形为:`P̃((s',τ)|(s,τ),a) = P(s'|s,a)·δ(τ)`(τ 在整个 episode 中"冻结")。
## 为什么需要
- 同一状态 s 在不同任务 τ 下需要**不同最优动作**
- 策略必须区分"四旋翼在 (x,y,z) 要去轨迹 A 还是轨迹 B"
- 不能仅靠状态分辨任务意图
## 在 RepMT-SAC 中
在[[rep-mt-sac|RepMT-SAC]]中,策略从线性 Q 函数导出(最大熵 SAC 框架):
```
π(a|s,τ) ∝ exp( Q(s,a;τ) / α )
= exp( ⟨φ(s,a), w(τ)⟩ / α )
```
任务条件性由 w(τ) 注入——φ(s,a) 是任务不变的。
## 任务编码方式
在四旋翼实验中,τ 被编码为:
- **Legendre 多项式系数**:轨迹的全局参数化
- **滑动参考窗口**:未来 N 个航点的局部几何信息
## 参考
- [[multitask-rl|多任务 RL]]
- [[task-invariant-representation|任务不变表征]]
- [[rep-mt-sac|RepMT-SAC]]