3.2 KiB
3.2 KiB
title, created, updated, type, tags, sources, code
| title | created | updated | type | tags | sources | code | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| ME² + TRM: Complex Reasoning Optimization (Zhang et al., ICML 2026) | 2026-06-24 | 2026-06-24 | paper |
|
|
https://github.com/Simplified-Reasoning/TRM |
ME² + TRM: 复杂推理的表征、评估与优化
Zhang et al. | ICML 2026 | arXiv:2602.08498v2 | cs.CL
动机
large-reasoning-models 的推理轨迹越来越长且结构复杂,但缺乏统一的答案回答三个问题:(1) 什么是高质量推理?(2) 如何可靠评估?(3) 如何用评估信号优化推理?
现有方法的局限:PRMs 依赖步骤级绝对评分,无法捕获长程依赖和非线性结构;ORMs 设计用于对齐最终响应(helpful/honest/harmless),而非评估结构化推理质量。
核心框架
me2-principle
两个正交维度:
| Macro(全局) | Micro(局部) | |
|---|---|---|
| Effectiveness | 结构组织是否合理、无冗余分支 | 步骤是否正确、有逻辑 |
| Efficiency | 推理路径是否简洁、无绕路 | 步骤是否精简、无赘述 |
推理质量 = Macro-Effectiveness × Macro-Efficiency × Micro-Effectiveness × Micro-Efficiency
dag-reasoning-evaluation
将推理轨迹抽象为 DAG:
- 节点:推理步骤
- 边:逻辑依赖关系
- DAG vs Tree:Tree 无法表达合并(多前驱节点),DAG 是表达力与可处理性的实用平衡
thinking-reward-model
训练流程:
- 生成多条候选推理轨迹 → 构建 DAG → ME² pairwise preference 标注(DeepSeek-V3.2)
- 构建 trm-preference-dataset(103K 训练对,1.5K 验证)
- 训练 TRM:Llama-3.1-8B + scalar head,Bradley-Terry loss
核心设计:TRM 仅训练于 verified-correct 推理对——与答案正确性解耦,纯评估推理质量。
reasoning-quality-optimization
Test-Time Scaling:TRM Best-of-N selection → +19.3%(AIME24, N=16, Qwen3-8B: 44.7%→64.0%) RL Training:TRM-guided GRPO with gated reward shaping:
r = r_v \cdot (1 - \alpha + \alpha \cdot \text{Sigmoid}(r_t))
r_v = outcome reward, r_t = thinking reward, α = balance weight → +3.9% across diverse tasks
关键结果
| 方法 | 验证集准确率 |
|---|---|
| Qwen2.5-Math-PRM-7B | 46.3% |
| ReasonFlux-PRM-7B | 62.5% |
| PromptOnly (DeepSeek-V3.2) | 78.6% |
| TRM (ours) | 88.6% |
核心洞察
- 将推理质量与答案正确性解耦 — TRM 仅训练于正确推理的偏好对,证明推理质量可独立于答案正确性评估
- DAG 比 Tree 更适合推理建模 — 推理中的合并(多步归结为一个结论)是常见模式,Tree 无法表达
- Structural signals matter — 直接 prompt-based 比较产生大量 ties (232/1497),但去除 ties 后准确率 93%。DAG 结构化后 ties 归零,证明结构信号是关键区分器