20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/task-conditioned-policy.md
+++ b/concepts/task-conditioned-policy.md
@@ -0,0 +1,50 @@
+---
+title: "任务条件策略 (Task-Conditioned Policy)"
+created: 2026-06-17
+updated: 2026-06-17
+type: concept
+tags: [reinforcement-learning, multi-task, policy]
+sources: [raw/papers/naveen-repmt-sac-2026.md]
+confidence: high
+---
+
+# 任务条件策略 (Task-Conditioned Policy)
+
+任务条件策略是[[multitask-rl|多任务 RL]] 的基本抽象——策略 π(a|s,τ) 不仅依赖状态 s，也**显式条件于任务 τ**。
+
+## 形式
+
+```
+π : S × T → Δ(A)
+```
+
+通过扩增状态 `s̃ = (s, τ)`，使 MDP 变形为：`P̃((s',τ)|(s,τ),a) = P(s'|s,a)·δ(τ)`（τ 在整个 episode 中"冻结"）。
+
+## 为什么需要
+
+- 同一状态 s 在不同任务 τ 下需要**不同最优动作**
+- 策略必须区分"四旋翼在 (x,y,z) 要去轨迹 A 还是轨迹 B"
+- 不能仅靠状态分辨任务意图
+
+## 在 RepMT-SAC 中
+
+在[[rep-mt-sac|RepMT-SAC]]中，策略从线性 Q 函数导出（最大熵 SAC 框架）：
+
+```
+π(a|s,τ) ∝ exp( Q(s,a;τ) / α )
+     = exp( ⟨φ(s,a), w(τ)⟩ / α )
+```
+
+任务条件性由 w(τ) 注入——φ(s,a) 是任务不变的。
+
+## 任务编码方式
+
+在四旋翼实验中，τ 被编码为：
+- **Legendre 多项式系数**：轨迹的全局参数化
+- **滑动参考窗口**：未来 N 个航点的局部几何信息
+
+## 参考
+
+- [[multitask-rl|多任务 RL]]
+- [[task-invariant-representation|任务不变表征]]
+- [[rep-mt-sac|RepMT-SAC]]