20260617:目前有914 页
This commit is contained in:
43
concepts/section-ranking.md
Normal file
43
concepts/section-ranking.md
Normal file
@@ -0,0 +1,43 @@
|
||||
---
|
||||
title: "Section Ranking — Structure-Aware Literature Section Prioritization"
|
||||
type: concept
|
||||
created: 2026-06-04
|
||||
tags: [information-retrieval, ranking, scientific-literature, llm-reasoning]
|
||||
sources: ["ma-intragent-2026"]
|
||||
---
|
||||
|
||||
# Section Ranking(章节排序)
|
||||
|
||||
**定义**:IntrAgent 第一阶段的核心机制——利用科学文献的结构知识,通过 LLM 推理对章节按与查询的相关性进行排序。
|
||||
|
||||
## 三步流程
|
||||
|
||||
### 1. 章节标题解析(Section Heading Parsing)
|
||||
- 使用 [[mineru]](视觉模型)将 PDF 转为 Markdown
|
||||
- 统一提取所有 `# Section` 和 `## Subsection` 标题
|
||||
- 标准化不同模板的文献格式
|
||||
|
||||
### 2. [[hierarchy-preservation|层级保持]](Hierarchy Preservation)
|
||||
- LLM 推导章节之间的父子/兄弟关系
|
||||
- 构建完整的章节树
|
||||
- 过滤冗余节点(父章节后紧跟子章节且无中间内容时去重)
|
||||
|
||||
### 3. 推理排序(Reasoning-Based Ranking)
|
||||
- LLM 基于结构化知识推理哪个章节最可能包含答案
|
||||
- 输出排序列表 R = [r₁, ..., rₙ]
|
||||
- 按此顺序供迭代阅读阶段依次访问
|
||||
|
||||
## 与语义相似度排序的对比
|
||||
|
||||
传统的 [[rag|RAG]] 使用 embedding 余弦相似度对文本片段排序,存在两个根本问题:
|
||||
- **领域术语错位**:查询中的术语可能与文献中使用的术语完全不同(如同义词、缩写)
|
||||
- **忽略结构**:科学文献的层级结构(方法→结果→讨论)蕴含重要的语义信息,平面检索丢失这些
|
||||
|
||||
IntrAgent 的推理排序通过 LLM 的结构感知推理直接解决这两个问题。
|
||||
|
||||
## 相关概念
|
||||
|
||||
- [[iterative-reading|迭代阅读]] — 使用排序结果进行后续阅读
|
||||
- [[hierarchy-preservation]] — 层级保持机制
|
||||
- [[mineru]] — PDF 转换工具
|
||||
- [[content-grounded-retrieval]] — 内容锚定检索
|
||||
Reference in New Issue
Block a user