1.2 KiB
1.2 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| TRM-Preference Dataset | 2026-06-24 | 2026-06-24 | concept |
|
|
TRM-Preference Dataset
TRM-Preference 是用于训练 Thinking Reward Model 的 pairwise preference 数据集。
构建流程
- 对每个 prompt 生成多条候选推理轨迹
- 构建 DAG 推理结构
- 基于 ME² 原则进行 pairwise preference 标注(DeepSeek-V3.2 自动评估)
- 每个 prompt 最多采样 4 对,避免过表示
- 最终:103K 训练对 + 1.5K 验证对
关键设计
- 仅包含 verified-correct 推理对:两个推理都正确,仅偏好质量更高的一方
- 与答案正确性解耦:训练信号纯来自推理质量差异
- 自动标注:DeepSeek-V3.2 作为评估器,基于 DAG 结构化表示减少 ties
偏好标注可靠性
非 ties 对准确率 93%(当排除 232 ties 后),验证自动标注的可靠性。但高 tie 率暴露了直接 prompt-based 评估的局限——结构差异难以在非结构化痕迹中区分。