SidneyZhang/myWiki

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

1.8 KiB

Raw Blame History

title, created, type, tags, sources

title

created

type

tags

sources

Dual Space RL (DSRL)

2026-05-18

concept

reinforcement-learning

LLM

policy-optimization

GRPO

https://arxiv.org/abs/2604.14142

Dual Space RL (DSRL)

定义

DSRL 是一个两阶段的 RL 框架，通过 policy-reincarnation 策略将 pre-train-space-reinforcement-learning 与标准 RL 统一起来：

Phase 1 (s ≤ S): NSR-PreRL — 在预训练空间中剪枝错误推理路径，扩展推理视野
Phase 2 (s > S): 标准 GRPO — 在 post-train 空间中进行细粒度策略优化

统一公式

∇J_DSRL = E[∑∇log π(y_t | x^{I[s>S]}, y_{<t}) · R(y) · I[s>S ∨ R(y)<0]]

x^{I[s>S]}: Phase 1 时遮蔽 x（预训练空间），Phase 2 时恢复 x
I[s>S ∨ R(y)<0]: Phase 1 仅对负样本更新（NSR），Phase 2 使用全部样本

关键结果

Main Results (Avg@32)

模型	Baseline	GRPO	DSRL
Qwen3-4B	41.26	55.79	57.54
Qwen3-8B	41.62	57.00	58.47

效率提升

达到 45% 精度：2.5× 更少步数
达到 58% 精度：1.6× 更少步数

OOD 泛化

GPQA-Diamond: +3.79 (4B), +2.52 (8B)
MMLU-Pro: +5.37 (4B), +4.32 (8B)
HumanEval: +2.44 (8B)

Warmup 步数消融

最优区间：S ∈ [10, 25] 步。过少（激励不足）或过多（过度探索）均导致性能下降。

推理行为演化

NSR-PreRL 阶段激发多种推理模式：

Subgoal Setting
Enumeration
Verification
Backtracking

所有模式在 DSRL 中均达到更高的频率上限。

相关概念