20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/concepts/trm-preference-dataset.md
+++ b/concepts/trm-preference-dataset.md
@@ -0,0 +1,36 @@
+---
+title: "TRM-Preference Dataset"
+created: 2026-06-24
+updated: 2026-06-24
+type: concept
+tags: ["dataset", "preference-data", "reasoning", "reward-model"]
+sources:
+  - "[[me2-trm-reasoning-2026]]"
+---
+
+# TRM-Preference Dataset
+
+TRM-Preference 是用于训练 Thinking Reward Model 的 pairwise preference 数据集。
+
+## 构建流程
+
+1. 对每个 prompt 生成多条候选推理轨迹
+2. 构建 DAG 推理结构
+3. 基于 ME² 原则进行 pairwise preference 标注（DeepSeek-V3.2 自动评估）
+4. 每个 prompt 最多采样 4 对，避免过表示
+5. 最终：103K 训练对 + 1.5K 验证对
+
+## 关键设计
+
+- **仅包含 verified-correct 推理对**：两个推理都正确，仅偏好质量更高的一方
+- **与答案正确性解耦**：训练信号纯来自推理质量差异
+- **自动标注**：DeepSeek-V3.2 作为评估器，基于 DAG 结构化表示减少 ties
+
+## 偏好标注可靠性
+
+非 ties 对准确率 93%（当排除 232 ties 后），验证自动标注的可靠性。但高 tie 率暴露了直接 prompt-based 评估的局限——结构差异难以在非结构化痕迹中区分。
+
+## 参考
+- [[me2-trm-reasoning-2026]]
+- [[thinking-reward-model]]
+- [[dag-reasoning-evaluation]]