37 lines
1.2 KiB
Markdown
37 lines
1.2 KiB
Markdown
---
|
||
title: "TRM-Preference Dataset"
|
||
created: 2026-06-24
|
||
updated: 2026-06-24
|
||
type: concept
|
||
tags: ["dataset", "preference-data", "reasoning", "reward-model"]
|
||
sources:
|
||
- "[[me2-trm-reasoning-2026]]"
|
||
---
|
||
|
||
# TRM-Preference Dataset
|
||
|
||
TRM-Preference 是用于训练 Thinking Reward Model 的 pairwise preference 数据集。
|
||
|
||
## 构建流程
|
||
|
||
1. 对每个 prompt 生成多条候选推理轨迹
|
||
2. 构建 DAG 推理结构
|
||
3. 基于 ME² 原则进行 pairwise preference 标注(DeepSeek-V3.2 自动评估)
|
||
4. 每个 prompt 最多采样 4 对,避免过表示
|
||
5. 最终:103K 训练对 + 1.5K 验证对
|
||
|
||
## 关键设计
|
||
|
||
- **仅包含 verified-correct 推理对**:两个推理都正确,仅偏好质量更高的一方
|
||
- **与答案正确性解耦**:训练信号纯来自推理质量差异
|
||
- **自动标注**:DeepSeek-V3.2 作为评估器,基于 DAG 结构化表示减少 ties
|
||
|
||
## 偏好标注可靠性
|
||
|
||
非 ties 对准确率 93%(当排除 232 ties 后),验证自动标注的可靠性。但高 tie 率暴露了直接 prompt-based 评估的局限——结构差异难以在非结构化痕迹中区分。
|
||
|
||
## 参考
|
||
- [[me2-trm-reasoning-2026]]
|
||
- [[thinking-reward-model]]
|
||
- [[dag-reasoning-evaluation]]
|