Files
myWiki/concepts/trm-preference-dataset.md

37 lines
1.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "TRM-Preference Dataset"
created: 2026-06-24
updated: 2026-06-24
type: concept
tags: ["dataset", "preference-data", "reasoning", "reward-model"]
sources:
- "[[me2-trm-reasoning-2026]]"
---
# TRM-Preference Dataset
TRM-Preference 是用于训练 Thinking Reward Model 的 pairwise preference 数据集。
## 构建流程
1. 对每个 prompt 生成多条候选推理轨迹
2. 构建 DAG 推理结构
3. 基于 ME² 原则进行 pairwise preference 标注DeepSeek-V3.2 自动评估)
4. 每个 prompt 最多采样 4 对,避免过表示
5. 最终103K 训练对 + 1.5K 验证对
## 关键设计
- **仅包含 verified-correct 推理对**:两个推理都正确,仅偏好质量更高的一方
- **与答案正确性解耦**:训练信号纯来自推理质量差异
- **自动标注**DeepSeek-V3.2 作为评估器,基于 DAG 结构化表示减少 ties
## 偏好标注可靠性
非 ties 对准确率 93%(当排除 232 ties 后),验证自动标注的可靠性。但高 tie 率暴露了直接 prompt-based 评估的局限——结构差异难以在非结构化痕迹中区分。
## 参考
- [[me2-trm-reasoning-2026]]
- [[thinking-reward-model]]
- [[dag-reasoning-evaluation]]