SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

1.6 KiB

Raw Blame History

title: "群体相对策略优化 (GRPO)" domain: "Reinforcement Learning / LLM Training" tags: [grpo, reinforcement-learning, rlhf, policy-optimization] sources: thinking-with-visual-primitives, deepseek-v4-million-token-context

群体相对策略优化 (GRPO)

Group Relative Policy Optimization — DeepSeek 采用的强化学习算法，通过组内相对比较来优化策略，无需显式的价值函数。

核心思想

GRPO 是 DeepSeek 系列模型（V4、V4-Flash、视觉原语模型）统一使用的 RL 算法。相比传统 PPO 需要训练一个与策略模型等大的 critic 网络，GRPO 通过组内采样 + 相对比较消除了 critic 的需求，显著降低了 RLHF 阶段的计算和内存开销。

在视觉原语训练中的应用

在 specialized-rl 阶段：

对每个样本生成 N 个 rollout
使用多个 reward-model（Format RM、Quality RM、Accuracy RM）评分
组内相对比较 → 策略梯度更新

数据难度分级：

Easy：N 个 rollout 全部正确
Normal：1 ≤ k < N 个正确（选用于训练）
Hard：0 个正确

优势

无需 critic 网络，节省显存和计算
组内比较提供自然的 baseline，减少方差
与多种奖励模型组合灵活

相关概念

specialized-rl — GRPO 在视觉原语中的应用
on-policy-distillation — 后续蒸馏阶段
reward-model — GRPO 的 reward 来源
exponential-decay-reward — 计数任务的 GRPO reward 设计