Files
myWiki/concepts/section-ranking.md

44 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Section Ranking — Structure-Aware Literature Section Prioritization"
type: concept
created: 2026-06-04
tags: [information-retrieval, ranking, scientific-literature, llm-reasoning]
sources: ["ma-intragent-2026"]
---
# Section Ranking章节排序
**定义**IntrAgent 第一阶段的核心机制——利用科学文献的结构知识,通过 LLM 推理对章节按与查询的相关性进行排序。
## 三步流程
### 1. 章节标题解析Section Heading Parsing
- 使用 [[mineru]](视觉模型)将 PDF 转为 Markdown
- 统一提取所有 `# Section``## Subsection` 标题
- 标准化不同模板的文献格式
### 2. [[hierarchy-preservation|层级保持]]Hierarchy Preservation
- LLM 推导章节之间的父子/兄弟关系
- 构建完整的章节树
- 过滤冗余节点(父章节后紧跟子章节且无中间内容时去重)
### 3. 推理排序Reasoning-Based Ranking
- LLM 基于结构化知识推理哪个章节最可能包含答案
- 输出排序列表 R = [r₁, ..., rₙ]
- 按此顺序供迭代阅读阶段依次访问
## 与语义相似度排序的对比
传统的 [[rag|RAG]] 使用 embedding 余弦相似度对文本片段排序,存在两个根本问题:
- **领域术语错位**:查询中的术语可能与文献中使用的术语完全不同(如同义词、缩写)
- **忽略结构**:科学文献的层级结构(方法→结果→讨论)蕴含重要的语义信息,平面检索丢失这些
IntrAgent 的推理排序通过 LLM 的结构感知推理直接解决这两个问题。
## 相关概念
- [[iterative-reading|迭代阅读]] — 使用排序结果进行后续阅读
- [[hierarchy-preservation]] — 层级保持机制
- [[mineru]] — PDF 转换工具
- [[content-grounded-retrieval]] — 内容锚定检索