42 lines
2.2 KiB
Markdown
42 lines
2.2 KiB
Markdown
---
|
||
title: "Review: ME² + TRM — Complex Reasoning Optimization"
|
||
created: 2026-06-24
|
||
updated: 2026-06-24
|
||
type: review
|
||
paper: "[[me2-trm-reasoning-2026]]"
|
||
---
|
||
|
||
# 📌 基本信息
|
||
- **论文标题**:Characterizing, Evaluating, and Optimizing Complex Reasoning
|
||
- **作者**:Zhang, Li, Wang, Wang, Zhang, Qu, Cheng(SJTU/上海AI Lab/CUHK 等)
|
||
- **领域**:cs.CL(推理评估、奖励模型、RL)
|
||
- **会议**:ICML 2026 | arXiv:2602.08498v2
|
||
- **代码**:https://github.com/Simplified-Reasoning/TRM
|
||
|
||
# 🎯 核心概念
|
||
|
||
1. **ME² Principle** — Macro/Micro × Efficiency/Effectiveness 四象限推理质量表征
|
||
2. **DAG-based Reasoning Evaluation** — 将推理轨迹抽象为 DAG,捕获分支/合并结构,消除直接评估的大量 ties
|
||
3. **Thinking Reward Model (TRM)** — 仅训练于 verified-correct 推理对,与答案正确性解耦的推理质量评估模型
|
||
4. **Reasoning Quality Optimization** — Test-time Best-of-N (+19.3%) 和 TRM-guided GRPO (+3.9%) 双路径
|
||
|
||
# 🔗 概念网络
|
||
|
||
**核心连接**:
|
||
- ME² Principle → DAG Evaluation → TRM(原则 → 建模 → 模型)
|
||
- TRM → Reasoning Quality Optimization(模型 → 应用)
|
||
- TRM ↔ reward-model, GRPO(已有概念衔接)
|
||
|
||
**复用已有概念**:[[large-reasoning-models]]、[[reward-model]]、[[grpo]]
|
||
|
||
# 📚 Wiki 集成
|
||
- 新增页面:7 个(1 论文 + 5 概念 + 1 Review)
|
||
- 复用已有概念:3 个
|
||
- 总规模:1195 → 1203 页
|
||
|
||
# 💡 关键洞察
|
||
|
||
1. **推理质量的独立可评估性** — TRM 仅在正确推理对上训练偏好,证明了推理质量可以独立于答案正确性被评估。这意味着你可以在不知道答案对不对的情况下,判断推理过程好不好。这是对 RL 中 outcome-only reward 的关键补充:thinking reward 在答案正确的多条路径中选择更好的那一条,而不是简单地 reward 对错。
|
||
|
||
2. **结构信号的意义** — 直接 prompt-based 比较的 232 条 ties 在 DAG 结构化后归零,说明推理质量差异的本质不在步骤内容而在结构组织。这与 Agent 系统设计中的 "Harness > SSM > Attention" 哲学同构:结构(DAG 拓扑)比内容(步骤文本)承载更多区分信息。
|