Files
myWiki/reviews/me2-trm-reasoning-20260624.md

2.2 KiB
Raw Blame History

title, created, updated, type, paper
title created updated type paper
Review: ME² + TRM — Complex Reasoning Optimization 2026-06-24 2026-06-24 review me2-trm-reasoning-2026

📌 基本信息

  • 论文标题Characterizing, Evaluating, and Optimizing Complex Reasoning
  • 作者Zhang, Li, Wang, Wang, Zhang, Qu, ChengSJTU/上海AI Lab/CUHK 等)
  • 领域cs.CL推理评估、奖励模型、RL
  • 会议ICML 2026 | arXiv:2602.08498v2
  • 代码https://github.com/Simplified-Reasoning/TRM

🎯 核心概念

  1. ME² Principle — Macro/Micro × Efficiency/Effectiveness 四象限推理质量表征
  2. DAG-based Reasoning Evaluation — 将推理轨迹抽象为 DAG捕获分支/合并结构,消除直接评估的大量 ties
  3. Thinking Reward Model (TRM) — 仅训练于 verified-correct 推理对,与答案正确性解耦的推理质量评估模型
  4. Reasoning Quality Optimization — Test-time Best-of-N (+19.3%) 和 TRM-guided GRPO (+3.9%) 双路径

🔗 概念网络

核心连接

  • ME² Principle → DAG Evaluation → TRM原则 → 建模 → 模型)
  • TRM → Reasoning Quality Optimization模型 → 应用)
  • TRM ↔ reward-model, GRPO已有概念衔接

复用已有概念large-reasoning-modelsreward-modelgrpo

📚 Wiki 集成

  • 新增页面7 个1 论文 + 5 概念 + 1 Review
  • 复用已有概念3 个
  • 总规模1195 → 1203 页

💡 关键洞察

  1. 推理质量的独立可评估性 — TRM 仅在正确推理对上训练偏好,证明了推理质量可以独立于答案正确性被评估。这意味着你可以在不知道答案对不对的情况下,判断推理过程好不好。这是对 RL 中 outcome-only reward 的关键补充thinking reward 在答案正确的多条路径中选择更好的那一条,而不是简单地 reward 对错。

  2. 结构信号的意义 — 直接 prompt-based 比较的 232 条 ties 在 DAG 结构化后归零,说明推理质量差异的本质不在步骤内容而在结构组织。这与 Agent 系统设计中的 "Harness > SSM > Attention" 哲学同构结构DAG 拓扑)比内容(步骤文本)承载更多区分信息。