多任务强化学习 (Multitask RL, MTRL)

多任务RL的目标是训练单一 agent 在任务分布 p(tau) 上最大化期望回报，而非针对单一任务。

形式化

每个任务 tau 定义 MDP M_tau = (S, A, T_tau, R_tau, gamma)。状态和动作空间通常共享，动力学和奖励按任务变化。

目标：

E_{tau~p(tau), pi} [ sum_t gamma^t * r_t ]

任务干扰（Task Interference）：共享表征必须支持多个可能冲突的目标——不同任务的梯度可能不对齐
非平稳性（Non-stationarity）：数据分布随任务混合变化——违背 i.i.d. 假设
容量利用不足（Underutilization）：大模型在多任务设定中往往不能有效利用增加的参数
表征瓶颈（Representation Bottleneck）：predictive-representations-scalable-mtrl 认为表征质量是核心瓶颈

关键发现：纯 model-free 方法随模型规模增大无收益甚至退化；加入predictive-representation-learning后持续改善——表征质量是 scaling 的瓶颈。