Files
myWiki/concepts/hierarchy-preservation.md

47 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Hierarchy Preservation — Structural Knowledge for Literature Ranking"
type: concept
created: 2026-06-04
tags: [document-structure, information-retrieval, llm-reasoning, ranking]
sources: ["ma-intragent-2026"]
---
# Hierarchy Preservation层级保持
**定义**[[intragent|IntrAgent]] [[section-ranking|章节排序]]阶段的关键设计——通过 LLM 推导科学文献的章节层级关系,为推理排序提供结构知识。
## 问题
科学文献遵循严格的层级结构:
- 父级标题传达更广泛的主题
- 子级标题提供更具体的细节
传统的 [[rag|RAG]] 检索完全忽略这一结构——将所有章节视为平面的文本片段。
## 机制
1. 从 [[mineru]] 转换后的 Markdown 文本提取所有章节/子章节标题
2. LLM 推理标题间的层级关系(父子/兄弟)
3. 构建完整的章节树section tree
4. 过滤冗余节点:父章节后紧跟子章节且无中间内容 → 去重
## 两个作用
1. **支撑推理排序**LLM 在排序时能看到完整的层级上下文——不仅知道"讨论"在最后,更知道"讨论.3 局限分析"是子章节
2. **支撑迭代阅读**:结构化文本解析确保迭代阅读阶段能正确导航章节树
## 与 RAG 的对比
| 维度 | RAG (平面检索) | 层级保持 |
|------|---------------|---------|
| 知识表示 | 独立片段向量 | 树形结构 |
| 排序依据 | 语义相似度 | 结构+语义推理 |
| 上下文理解 | 片段级 | 章-节-小节全路径 |
| 跨节关联 | 无法表示 | 树边显式建模 |
## 相关概念
- [[section-ranking]] — 使用层级信息进行推理排序
- [[iterative-reading]] — 使用层级信息进行结构化解析
- [[mineru]] — PDF → Markdown 转换工具