SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.4 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

任务条件策略 (Task-Conditioned Policy)

2026-06-17

2026-06-17

concept

reinforcement-learning

multi-task

policy

raw/papers/naveen-repmt-sac-2026.md

high

任务条件策略 (Task-Conditioned Policy)

任务条件策略是multitask-rl 的基本抽象——策略 π(a|s,τ) 不仅依赖状态 s，也显式条件于任务 τ。

形式

π : S × T → Δ(A)

通过扩增状态 s̃ = (s, τ)，使 MDP 变形为：P̃((s',τ)|(s,τ),a) = P(s'|s,a)·δ(τ)（τ 在整个 episode 中"冻结"）。

为什么需要

同一状态 s 在不同任务 τ 下需要不同最优动作
策略必须区分"四旋翼在 (x,y,z) 要去轨迹 A 还是轨迹 B"
不能仅靠状态分辨任务意图

在 RepMT-SAC 中

在rep-mt-sac中，策略从线性 Q 函数导出（最大熵 SAC 框架）：

π(a|s,τ) ∝ exp( Q(s,a;τ) / α )
     = exp( ⟨φ(s,a), w(τ)⟩ / α )

任务条件性由 w(τ) 注入——φ(s,a) 是任务不变的。

任务编码方式

在四旋翼实验中，τ 被编码为：

Legendre 多项式系数：轨迹的全局参数化
滑动参考窗口：未来 N 个航点的局部几何信息

参考