Files
myWiki/concepts/soft-actor-critic.md

1.4 KiB
Raw Blame History

title, created, updated, type, tags, sources, confidence
title created updated type tags sources confidence
Soft Actor-Critic (SAC) 2026-06-17 2026-06-17 concept
reinforcement-learning
algorithm
actor-critic
entropy
raw/papers/naveen-repmt-sac-2026.md
high

Soft Actor-Critic (SAC)

SAC 是最大熵强化学习的代表性算法,在 repmt-sac 中作为基础框架。

核心思想

标准 RL 仅最大化期望奖励。SAC 额外最大化策略熵

π* = argmax E[Σ γ^t (r_t + α H(π(·|s_t)))]

其中 H(π) = -E[log π(a|s)] 鼓励探索和策略多样性。

架构

  • Actor:参数化策略 π_θ(a|s),输出动作分布(通常高斯)
  • 双 Critic:两个 Q 网络减少过估计偏差
  • 温度参数 α:控制奖励-熵 trade-off
  • 重参数化技巧a = f_θ(s, ε),ε ~ N(0,I),允许低方差梯度

RepMT-SAC 中的扩展

rep-mt-sacSAC 被扩展为多任务变体:

  • Q 函数线性化:Q(s,a;τ) = ⟨φ(s,a), w(τ)⟩
  • 策略条件于任务:π(a|s,τ)
  • 上游联合学习 φ + w + π
  • 下游冻结 φ,微调 w 和 π

关键特性

  • Off-policy:从回放缓冲区学习
  • 自动温度调节α 可自适应调整
  • 连续动作:天然支持连续控制
  • 样本效率:相比 on-policy 方法(如 PPO

参考