1.4 KiB
1.4 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| 任务不变表征 (Task-Invariant Representation) | 2026-06-17 | 2026-06-17 | concept |
|
|
high |
任务不变表征 (Task-Invariant Representation)
任务不变表征是repmt-sac的核心——捕获所有任务共享的动力学结构,与奖励函数无关。
形式
Q(s,a;τ) = ⟨φ(s,a), w(τ)⟩
φ(s,a):任务不变 → 捕获 P(s'|s,a) 的结构w(τ):任务特定 → 编码 r(s,a,τ) 的信息
为什么可行
多任务 MDP 设置假设所有任务共享动力学 P 和状态-动作空间,仅在奖励函数上不同。例如四旋翼在所有轨迹上的物理动力学不变。
学习
使用对比式条件密度估计学习 φ 和辅助表征 µ(s'):
P(s'|s,a) ≈ exp⟨φ(s,a), µ(s')⟩ / Z
学到的 φ 允许任何任务的 Q 通过线性组合 w(τ)⊤ φ(s,a) 表达。
冻结的优势
下游适应时冻结 φ:
- 新任务仅需学习 w(τ_new)(低维参数)
- Q 学习退化为线性回归(极稳定)
- 少样本即可适应