Files
myWiki/concepts/dag-reasoning-evaluation.md

1.4 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
DAG-based Reasoning Evaluation 2026-06-24 2026-06-24 concept
reasoning
evaluation
graph
dag
me2-trm-reasoning-2026

DAG-based Reasoning Evaluation

将 LLM 推理轨迹建模为有向无环图DAG以进行评估的方法。

为什么 DAG

结构 优点 缺点
线性链 简单 无法表达分支/回溯
Tree 易构建 无法表达合并(多前驱)
DAG 捕获丰富结构 构建更复杂
完全图 表达力最强 不保持因果顺序

DAG 是表达力与可处理性的实用平衡——推理中常见的"多步归结为一个结论"模式需要合并边Tree 无法表达;完全图丢失了生成的先后因果顺序。

在 TRM 中的应用

  1. 解析推理轨迹 → 构建 DAG节点=步骤,边=逻辑依赖)
  2. 基于 DAG 计算 ME² 四维特征
  3. Pairwise preference 标注:哪个 DAG 结构更符合 ME² 原则
  4. 消除直接 prompt-based 比较的 ties 问题232 ties→0

关键贡献

DAG 结构信号是区分推理质量的关键——直接 prompt evaluation 大量 ties 的根本原因是许多推理对差异在于结构组织(冗余分支/逻辑捷径),而非局部步骤内容。

参考