Files
myWiki/concepts/thinking-reward-model.md

1.1 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Thinking Reward Model (TRM) 2026-06-24 2026-06-24 concept
reward-model
reasoning
preference-optimization
me2-trm-reasoning-2026

Thinking Reward Model (TRM)

TRM 是 Zhang et al. (ICML 2026) 提出的推理轨迹质量评估模型,基于 ME² 原则和 DAG 建模训练。

核心设计

  • 仅评估推理质量:训练于 verified-correct 推理对,与答案正确性解耦
  • Pairwise preferenceBradley-Terry 目标,不依赖绝对评分
  • 轻量Llama-3.1-8B + scalar value head 替换 LM head
  • 训练数据TRM-Preference 数据集103K 对)

与 PRM/ORM 的对比

维度 PRM ORM TRM
评估粒度 步骤级 响应级 推理轨迹级
监督方式 绝对评分 pairwise pairwise
长程依赖 N/A DAG结构化
与答案解耦 否(通常纠缠)

验证集性能

TRM: 88.6% vs ReasonFlux-PRM-7B: 62.5% vs Qwen2.5-Math-PRM-7B: 46.3%

参考