SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.2 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

TRM-Preference Dataset

2026-06-24

2026-06-24

concept

dataset

preference-data

reasoning

reward-model

me2-trm-reasoning-2026

TRM-Preference Dataset

TRM-Preference 是用于训练 Thinking Reward Model 的 pairwise preference 数据集。

构建流程

对每个 prompt 生成多条候选推理轨迹
构建 DAG 推理结构
基于 ME² 原则进行 pairwise preference 标注（DeepSeek-V3.2 自动评估）
每个 prompt 最多采样 4 对，避免过表示
最终：103K 训练对 + 1.5K 验证对

关键设计

仅包含 verified-correct 推理对：两个推理都正确，仅偏好质量更高的一方
与答案正确性解耦：训练信号纯来自推理质量差异
自动标注：DeepSeek-V3.2 作为评估器，基于 DAG 结构化表示减少 ties

偏好标注可靠性

非 ties 对准确率 93%（当排除 232 ties 后），验证自动标注的可靠性。但高 tie 率暴露了直接 prompt-based 评估的局限——结构差异难以在非结构化痕迹中区分。

参考