20260625:很多新内容
This commit is contained in:
40
concepts/dag-reasoning-evaluation.md
Normal file
40
concepts/dag-reasoning-evaluation.md
Normal file
@@ -0,0 +1,40 @@
|
||||
---
|
||||
title: "DAG-based Reasoning Evaluation"
|
||||
created: 2026-06-24
|
||||
updated: 2026-06-24
|
||||
type: concept
|
||||
tags: ["reasoning", "evaluation", "graph", "dag"]
|
||||
sources:
|
||||
- "[[me2-trm-reasoning-2026]]"
|
||||
---
|
||||
|
||||
# DAG-based Reasoning Evaluation
|
||||
|
||||
将 LLM 推理轨迹建模为有向无环图(DAG)以进行评估的方法。
|
||||
|
||||
## 为什么 DAG
|
||||
|
||||
| 结构 | 优点 | 缺点 |
|
||||
|------|------|------|
|
||||
| 线性链 | 简单 | 无法表达分支/回溯 |
|
||||
| **Tree** | 易构建 | 无法表达合并(多前驱) |
|
||||
| **DAG** | 捕获丰富结构 | 构建更复杂 |
|
||||
| 完全图 | 表达力最强 | 不保持因果顺序 |
|
||||
|
||||
DAG 是表达力与可处理性的实用平衡——推理中常见的"多步归结为一个结论"模式需要合并边,Tree 无法表达;完全图丢失了生成的先后因果顺序。
|
||||
|
||||
## 在 TRM 中的应用
|
||||
|
||||
1. 解析推理轨迹 → 构建 DAG(节点=步骤,边=逻辑依赖)
|
||||
2. 基于 DAG 计算 ME² 四维特征
|
||||
3. Pairwise preference 标注:哪个 DAG 结构更符合 ME² 原则
|
||||
4. 消除直接 prompt-based 比较的 ties 问题(232 ties→0)
|
||||
|
||||
## 关键贡献
|
||||
|
||||
DAG 结构信号是区分推理质量的关键——直接 prompt evaluation 大量 ties 的根本原因是许多推理对差异在于结构组织(冗余分支/逻辑捷径),而非局部步骤内容。
|
||||
|
||||
## 参考
|
||||
- [[me2-trm-reasoning-2026]]
|
||||
- [[me2-principle]]
|
||||
- [[thinking-reward-model]]
|
||||
Reference in New Issue
Block a user