20260617:目前有914 页
This commit is contained in:
46
concepts/hierarchy-preservation.md
Normal file
46
concepts/hierarchy-preservation.md
Normal file
@@ -0,0 +1,46 @@
|
||||
---
|
||||
title: "Hierarchy Preservation — Structural Knowledge for Literature Ranking"
|
||||
type: concept
|
||||
created: 2026-06-04
|
||||
tags: [document-structure, information-retrieval, llm-reasoning, ranking]
|
||||
sources: ["ma-intragent-2026"]
|
||||
---
|
||||
|
||||
# Hierarchy Preservation(层级保持)
|
||||
|
||||
**定义**:[[intragent|IntrAgent]] [[section-ranking|章节排序]]阶段的关键设计——通过 LLM 推导科学文献的章节层级关系,为推理排序提供结构知识。
|
||||
|
||||
## 问题
|
||||
|
||||
科学文献遵循严格的层级结构:
|
||||
- 父级标题传达更广泛的主题
|
||||
- 子级标题提供更具体的细节
|
||||
|
||||
传统的 [[rag|RAG]] 检索完全忽略这一结构——将所有章节视为平面的文本片段。
|
||||
|
||||
## 机制
|
||||
|
||||
1. 从 [[mineru]] 转换后的 Markdown 文本提取所有章节/子章节标题
|
||||
2. LLM 推理标题间的层级关系(父子/兄弟)
|
||||
3. 构建完整的章节树(section tree)
|
||||
4. 过滤冗余节点:父章节后紧跟子章节且无中间内容 → 去重
|
||||
|
||||
## 两个作用
|
||||
|
||||
1. **支撑推理排序**:LLM 在排序时能看到完整的层级上下文——不仅知道"讨论"在最后,更知道"讨论.3 局限分析"是子章节
|
||||
2. **支撑迭代阅读**:结构化文本解析确保迭代阅读阶段能正确导航章节树
|
||||
|
||||
## 与 RAG 的对比
|
||||
|
||||
| 维度 | RAG (平面检索) | 层级保持 |
|
||||
|------|---------------|---------|
|
||||
| 知识表示 | 独立片段向量 | 树形结构 |
|
||||
| 排序依据 | 语义相似度 | 结构+语义推理 |
|
||||
| 上下文理解 | 片段级 | 章-节-小节全路径 |
|
||||
| 跨节关联 | 无法表示 | 树边显式建模 |
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[section-ranking]] — 使用层级信息进行推理排序
|
||||
- [[iterative-reading]] — 使用层级信息进行结构化解析
|
||||
- [[mineru]] — PDF → Markdown 转换工具
|
||||
Reference in New Issue
Block a user