Files
myWiki/reviews/me2-trm-reasoning-20260624.md

42 lines
2.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Review: ME² + TRM — Complex Reasoning Optimization"
created: 2026-06-24
updated: 2026-06-24
type: review
paper: "[[me2-trm-reasoning-2026]]"
---
# 📌 基本信息
- **论文标题**Characterizing, Evaluating, and Optimizing Complex Reasoning
- **作者**Zhang, Li, Wang, Wang, Zhang, Qu, ChengSJTU/上海AI Lab/CUHK 等)
- **领域**cs.CL推理评估、奖励模型、RL
- **会议**ICML 2026 | arXiv:2602.08498v2
- **代码**https://github.com/Simplified-Reasoning/TRM
# 🎯 核心概念
1. **ME² Principle** — Macro/Micro × Efficiency/Effectiveness 四象限推理质量表征
2. **DAG-based Reasoning Evaluation** — 将推理轨迹抽象为 DAG捕获分支/合并结构,消除直接评估的大量 ties
3. **Thinking Reward Model (TRM)** — 仅训练于 verified-correct 推理对,与答案正确性解耦的推理质量评估模型
4. **Reasoning Quality Optimization** — Test-time Best-of-N (+19.3%) 和 TRM-guided GRPO (+3.9%) 双路径
# 🔗 概念网络
**核心连接**
- ME² Principle → DAG Evaluation → TRM原则 → 建模 → 模型)
- TRM → Reasoning Quality Optimization模型 → 应用)
- TRM ↔ reward-model, GRPO已有概念衔接
**复用已有概念**[[large-reasoning-models]]、[[reward-model]]、[[grpo]]
# 📚 Wiki 集成
- 新增页面7 个1 论文 + 5 概念 + 1 Review
- 复用已有概念3 个
- 总规模1195 → 1203 页
# 💡 关键洞察
1. **推理质量的独立可评估性** — TRM 仅在正确推理对上训练偏好,证明了推理质量可以独立于答案正确性被评估。这意味着你可以在不知道答案对不对的情况下,判断推理过程好不好。这是对 RL 中 outcome-only reward 的关键补充thinking reward 在答案正确的多条路径中选择更好的那一条,而不是简单地 reward 对错。
2. **结构信号的意义** — 直接 prompt-based 比较的 232 条 ties 在 DAG 结构化后归零,说明推理质量差异的本质不在步骤内容而在结构组织。这与 Agent 系统设计中的 "Harness > SSM > Attention" 哲学同构结构DAG 拓扑)比内容(步骤文本)承载更多区分信息。