--- title: "Section Ranking — Structure-Aware Literature Section Prioritization" type: concept created: 2026-06-04 tags: [information-retrieval, ranking, scientific-literature, llm-reasoning] sources: ["ma-intragent-2026"] --- # Section Ranking(章节排序) **定义**:IntrAgent 第一阶段的核心机制——利用科学文献的结构知识,通过 LLM 推理对章节按与查询的相关性进行排序。 ## 三步流程 ### 1. 章节标题解析(Section Heading Parsing) - 使用 [[mineru]](视觉模型)将 PDF 转为 Markdown - 统一提取所有 `# Section` 和 `## Subsection` 标题 - 标准化不同模板的文献格式 ### 2. [[hierarchy-preservation|层级保持]](Hierarchy Preservation) - LLM 推导章节之间的父子/兄弟关系 - 构建完整的章节树 - 过滤冗余节点(父章节后紧跟子章节且无中间内容时去重) ### 3. 推理排序(Reasoning-Based Ranking) - LLM 基于结构化知识推理哪个章节最可能包含答案 - 输出排序列表 R = [r₁, ..., rₙ] - 按此顺序供迭代阅读阶段依次访问 ## 与语义相似度排序的对比 传统的 [[rag|RAG]] 使用 embedding 余弦相似度对文本片段排序,存在两个根本问题: - **领域术语错位**:查询中的术语可能与文献中使用的术语完全不同(如同义词、缩写) - **忽略结构**:科学文献的层级结构(方法→结果→讨论)蕴含重要的语义信息,平面检索丢失这些 IntrAgent 的推理排序通过 LLM 的结构感知推理直接解决这两个问题。 ## 相关概念 - [[iterative-reading|迭代阅读]] — 使用排序结果进行后续阅读 - [[hierarchy-preservation]] — 层级保持机制 - [[mineru]] — PDF 转换工具 - [[content-grounded-retrieval]] — 内容锚定检索