SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.1 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Thinking Reward Model (TRM)

2026-06-24

2026-06-24

concept

reward-model

reasoning

preference-optimization

me2-trm-reasoning-2026

Thinking Reward Model (TRM)

TRM 是 Zhang et al. (ICML 2026) 提出的推理轨迹质量评估模型，基于 ME² 原则和 DAG 建模训练。

核心设计

仅评估推理质量：训练于 verified-correct 推理对，与答案正确性解耦
Pairwise preference：Bradley-Terry 目标，不依赖绝对评分
轻量：Llama-3.1-8B + scalar value head 替换 LM head
训练数据：TRM-Preference 数据集（103K 对）

与 PRM/ORM 的对比

维度	PRM	ORM	TRM
评估粒度	步骤级	响应级	推理轨迹级
监督方式	绝对评分	pairwise	pairwise
长程依赖	弱	N/A	强（DAG结构化）
与答案解耦	否（通常纠缠）	是	是

验证集性能

TRM: 88.6% vs ReasonFlux-PRM-7B: 62.5% vs Qwen2.5-Math-PRM-7B: 46.3%

参考