20260625:很多新内容

2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions
--- a/reviews/me2-trm-reasoning-20260624.md
+++ b/reviews/me2-trm-reasoning-20260624.md
@@ -0,0 +1,41 @@
+---
+title: "Review: ME² + TRM — Complex Reasoning Optimization"
+created: 2026-06-24
+updated: 2026-06-24
+type: review
+paper: "[[me2-trm-reasoning-2026]]"
+---
+
+# 📌 基本信息
+- **论文标题**：Characterizing, Evaluating, and Optimizing Complex Reasoning
+- **作者**：Zhang, Li, Wang, Wang, Zhang, Qu, Cheng（SJTU/上海AI Lab/CUHK 等）
+- **领域**：cs.CL（推理评估、奖励模型、RL）
+- **会议**：ICML 2026 | arXiv:2602.08498v2
+- **代码**：https://github.com/Simplified-Reasoning/TRM
+
+# 🎯 核心概念
+
+1. **ME² Principle** — Macro/Micro × Efficiency/Effectiveness 四象限推理质量表征
+2. **DAG-based Reasoning Evaluation** — 将推理轨迹抽象为 DAG，捕获分支/合并结构，消除直接评估的大量 ties
+3. **Thinking Reward Model (TRM)** — 仅训练于 verified-correct 推理对，与答案正确性解耦的推理质量评估模型
+4. **Reasoning Quality Optimization** — Test-time Best-of-N (+19.3%) 和 TRM-guided GRPO (+3.9%) 双路径
+
+# 🔗 概念网络
+
+**核心连接**：
+- ME² Principle → DAG Evaluation → TRM（原则 → 建模 → 模型）
+- TRM → Reasoning Quality Optimization（模型 → 应用）
+- TRM ↔ reward-model, GRPO（已有概念衔接）
+
+**复用已有概念**：[[large-reasoning-models]]、[[reward-model]]、[[grpo]]
+
+# 📚 Wiki 集成
+- 新增页面：7 个（1 论文 + 5 概念 + 1 Review）
+- 复用已有概念：3 个
+- 总规模：1195 → 1203 页
+
+# 💡 关键洞察
+
+1. **推理质量的独立可评估性** — TRM 仅在正确推理对上训练偏好，证明了推理质量可以独立于答案正确性被评估。这意味着你可以在不知道答案对不对的情况下，判断推理过程好不好。这是对 RL 中 outcome-only reward 的关键补充：thinking reward 在答案正确的多条路径中选择更好的那一条，而不是简单地 reward 对错。
+
+2. **结构信号的意义** — 直接 prompt-based 比较的 232 条 ties 在 DAG 结构化后归零，说明推理质量差异的本质不在步骤内容而在结构组织。这与 Agent 系统设计中的 "Harness > SSM > Attention" 哲学同构：结构（DAG 拓扑）比内容（步骤文本）承载更多区分信息。