20260617:目前有914 页
This commit is contained in:
50
concepts/task-conditioned-policy.md
Normal file
50
concepts/task-conditioned-policy.md
Normal file
@@ -0,0 +1,50 @@
|
||||
---
|
||||
title: "任务条件策略 (Task-Conditioned Policy)"
|
||||
created: 2026-06-17
|
||||
updated: 2026-06-17
|
||||
type: concept
|
||||
tags: [reinforcement-learning, multi-task, policy]
|
||||
sources: [raw/papers/naveen-repmt-sac-2026.md]
|
||||
confidence: high
|
||||
---
|
||||
|
||||
# 任务条件策略 (Task-Conditioned Policy)
|
||||
|
||||
任务条件策略是[[multitask-rl|多任务 RL]] 的基本抽象——策略 π(a|s,τ) 不仅依赖状态 s,也**显式条件于任务 τ**。
|
||||
|
||||
## 形式
|
||||
|
||||
```
|
||||
π : S × T → Δ(A)
|
||||
```
|
||||
|
||||
通过扩增状态 `s̃ = (s, τ)`,使 MDP 变形为:`P̃((s',τ)|(s,τ),a) = P(s'|s,a)·δ(τ)`(τ 在整个 episode 中"冻结")。
|
||||
|
||||
## 为什么需要
|
||||
|
||||
- 同一状态 s 在不同任务 τ 下需要**不同最优动作**
|
||||
- 策略必须区分"四旋翼在 (x,y,z) 要去轨迹 A 还是轨迹 B"
|
||||
- 不能仅靠状态分辨任务意图
|
||||
|
||||
## 在 RepMT-SAC 中
|
||||
|
||||
在[[rep-mt-sac|RepMT-SAC]]中,策略从线性 Q 函数导出(最大熵 SAC 框架):
|
||||
|
||||
```
|
||||
π(a|s,τ) ∝ exp( Q(s,a;τ) / α )
|
||||
= exp( ⟨φ(s,a), w(τ)⟩ / α )
|
||||
```
|
||||
|
||||
任务条件性由 w(τ) 注入——φ(s,a) 是任务不变的。
|
||||
|
||||
## 任务编码方式
|
||||
|
||||
在四旋翼实验中,τ 被编码为:
|
||||
- **Legendre 多项式系数**:轨迹的全局参数化
|
||||
- **滑动参考窗口**:未来 N 个航点的局部几何信息
|
||||
|
||||
## 参考
|
||||
|
||||
- [[multitask-rl|多任务 RL]]
|
||||
- [[task-invariant-representation|任务不变表征]]
|
||||
- [[rep-mt-sac|RepMT-SAC]]
|
||||
Reference in New Issue
Block a user