title, created, updated, type, tags, sources
| title |
created |
updated |
type |
tags |
sources |
| Thinking Reward Model (TRM) |
2026-06-24 |
2026-06-24 |
concept |
| reward-model |
| reasoning |
| preference-optimization |
|
|
Thinking Reward Model (TRM)
TRM 是 Zhang et al. (ICML 2026) 提出的推理轨迹质量评估模型,基于 ME² 原则和 DAG 建模训练。
核心设计
- 仅评估推理质量:训练于 verified-correct 推理对,与答案正确性解耦
- Pairwise preference:Bradley-Terry 目标,不依赖绝对评分
- 轻量:Llama-3.1-8B + scalar value head 替换 LM head
- 训练数据:TRM-Preference 数据集(103K 对)
与 PRM/ORM 的对比
| 维度 |
PRM |
ORM |
TRM |
| 评估粒度 |
步骤级 |
响应级 |
推理轨迹级 |
| 监督方式 |
绝对评分 |
pairwise |
pairwise |
| 长程依赖 |
弱 |
N/A |
强(DAG结构化) |
| 与答案解耦 |
否(通常纠缠) |
是 |
是 |
验证集性能
TRM: 88.6% vs ReasonFlux-PRM-7B: 62.5% vs Qwen2.5-Math-PRM-7B: 46.3%
参考