Files
myWiki/concepts/dag-reasoning-evaluation.md

41 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "DAG-based Reasoning Evaluation"
created: 2026-06-24
updated: 2026-06-24
type: concept
tags: ["reasoning", "evaluation", "graph", "dag"]
sources:
- "[[me2-trm-reasoning-2026]]"
---
# DAG-based Reasoning Evaluation
将 LLM 推理轨迹建模为有向无环图DAG以进行评估的方法。
## 为什么 DAG
| 结构 | 优点 | 缺点 |
|------|------|------|
| 线性链 | 简单 | 无法表达分支/回溯 |
| **Tree** | 易构建 | 无法表达合并(多前驱) |
| **DAG** | 捕获丰富结构 | 构建更复杂 |
| 完全图 | 表达力最强 | 不保持因果顺序 |
DAG 是表达力与可处理性的实用平衡——推理中常见的"多步归结为一个结论"模式需要合并边Tree 无法表达;完全图丢失了生成的先后因果顺序。
## 在 TRM 中的应用
1. 解析推理轨迹 → 构建 DAG节点=步骤,边=逻辑依赖)
2. 基于 DAG 计算 ME² 四维特征
3. Pairwise preference 标注:哪个 DAG 结构更符合 ME² 原则
4. 消除直接 prompt-based 比较的 ties 问题232 ties→0
## 关键贡献
DAG 结构信号是区分推理质量的关键——直接 prompt evaluation 大量 ties 的根本原因是许多推理对差异在于结构组织(冗余分支/逻辑捷径),而非局部步骤内容。
## 参考
- [[me2-trm-reasoning-2026]]
- [[me2-principle]]
- [[thinking-reward-model]]