myWiki/concepts/dqw.md

---
title: "Difficulty-Aware Question-Level Weighting (DQW)"
created: 2026-05-12
updated: 2026-05-12
type: concept
tags: ["grpo", "difficulty-aware", "importance-weighting"]
sources: ["arxiv:2601.20614"]
---

# Difficulty-Aware Question-Level Weighting (DQW)

**DQW** 是 [[dgpo|DGPO]] 的第二步组件，在 [[dgae|DGAE]] 平衡更新幅度的基础上，通过 softmax 温度加权**显式优先学习更难的问题**。

## 公式

$$\lambda_s = B_v \cdot \frac{\exp(D_s/T)}{\sum_{s'=1}^{B_v} \exp(D_{s'}/T)}, \quad D_s = -\text{mean}(\{r_{si}\}_{i=1}^G)$$

其中：
- $D_s$：问题难度分数 = 负平均正确率（越高越难）
- $T$：温度参数（控制分布锐度，默认 2.0）
- $B_v$：batch 中有效问题数量

## 设计原则

### Balance-then-Reweight

DQW 遵循**先平衡再加权**的原则：
1. [[dgae|DGAE]]：消除 GRPO 固有的更新幅度不平衡
2. DQW：在平衡基础上显式加权

相比直接对优势进行难度重加权（如 GRPO-AD），这种两步法具有更好的**可解释性**和**可控性**。

### 仅对有效问题加权

只有**有效问题**（非全对/全错）才参与 DQW 加权：
- 全对问题：$D_s = -1$，梯度为零（已完全掌握）
- 全错问题：$D_s = 0$，无正样本可供学习

### DQW 与组合方法

DGPO 与 DAPO 组合时，DQW 的难度分数 $D_s$ **仅基于 accuracy reward** 计算，排除 length penalty 等辅助奖励。这确保问题加权反映的是**逻辑难度**而非回答长度偏好。

## 与相关方法的对比

| 方法 | 机制 | 复杂度 |
|------|------|--------|
| **DQW** | Softmax 温度加权 | 低（1 个超参数 T） |
| GRPO-AD | 优势重加权 | 高（多超参数） |

## 相关概念

- [[dgae|DGAE]] — 第一步：难度平衡
- [[dgpo|DGPO]] — 算法整体
- [[mathforge]] — 完整框架
- [[dai-mathforge-2026|论文页面]]