Difficulty-Aware Question-Level Weighting (DQW)

DQW 是 dgpo 的第二步组件，在 dgae 平衡更新幅度的基础上，通过 softmax 温度加权显式优先学习更难的问题。

公式

\lambda_s = B_v \cdot \frac{\exp(D_s/T)}{\sum_{s'=1}^{B_v} \exp(D_{s'}/T)}, \quad D_s = -\text{mean}(\{r_{si}\}_{i=1}^G)

其中：

DQW 遵循先平衡再加权的原则：

相比直接对优势进行难度重加权（如 GRPO-AD），这种两步法具有更好的可解释性和可控性。

只有有效问题（非全对/全错）才参与 DQW 加权：

DGPO 与 DAPO 组合时，DQW 的难度分数 D_s 仅基于 accuracy reward 计算，排除 length penalty 等辅助奖励。这确保问题加权反映的是逻辑难度而非回答长度偏好。

方法	机制	复杂度
DQW	Softmax 温度加权	低（1 个超参数 T）
GRPO-AD	优势重加权	高（多超参数）