SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.4 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

Soft Actor-Critic (SAC)

2026-06-17

2026-06-17

concept

reinforcement-learning

algorithm

actor-critic

entropy

raw/papers/naveen-repmt-sac-2026.md

high

Soft Actor-Critic (SAC)

SAC 是最大熵强化学习的代表性算法，在 repmt-sac 中作为基础框架。

核心思想

标准 RL 仅最大化期望奖励。SAC 额外最大化策略熵：

π* = argmax E[Σ γ^t (r_t + α H(π(·|s_t)))]

其中 H(π) = -E[log π(a|s)] 鼓励探索和策略多样性。

架构

Actor：参数化策略 π_θ(a|s)，输出动作分布（通常高斯）
双 Critic：两个 Q 网络减少过估计偏差
温度参数 α：控制奖励-熵 trade-off
重参数化技巧：a = f_θ(s, ε)，ε ~ N(0,I)，允许低方差梯度

RepMT-SAC 中的扩展

在rep-mt-sac中，SAC 被扩展为多任务变体：

Q 函数线性化：Q(s,a;τ) = ⟨φ(s,a), w(τ)⟩
策略条件于任务：π(a|s,τ)
上游联合学习 φ + w + π
下游冻结 φ，微调 w 和 π

关键特性

Off-policy：从回放缓冲区学习
自动温度调节：α 可自适应调整
连续动作：天然支持连续控制
样本效率：相比 on-policy 方法（如 PPO）

参考