1.8 KiB
1.8 KiB
title, type, created, tags, sources
| title | type | created | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|
| Section Ranking — Structure-Aware Literature Section Prioritization | concept | 2026-06-04 |
|
|
Section Ranking(章节排序)
定义:IntrAgent 第一阶段的核心机制——利用科学文献的结构知识,通过 LLM 推理对章节按与查询的相关性进行排序。
三步流程
1. 章节标题解析(Section Heading Parsing)
- 使用 mineru(视觉模型)将 PDF 转为 Markdown
- 统一提取所有
# Section和## Subsection标题 - 标准化不同模板的文献格式
2. hierarchy-preservation(Hierarchy Preservation)
- LLM 推导章节之间的父子/兄弟关系
- 构建完整的章节树
- 过滤冗余节点(父章节后紧跟子章节且无中间内容时去重)
3. 推理排序(Reasoning-Based Ranking)
- LLM 基于结构化知识推理哪个章节最可能包含答案
- 输出排序列表 R = [r₁, ..., rₙ]
- 按此顺序供迭代阅读阶段依次访问
与语义相似度排序的对比
传统的 rag 使用 embedding 余弦相似度对文本片段排序,存在两个根本问题:
- 领域术语错位:查询中的术语可能与文献中使用的术语完全不同(如同义词、缩写)
- 忽略结构:科学文献的层级结构(方法→结果→讨论)蕴含重要的语义信息,平面检索丢失这些
IntrAgent 的推理排序通过 LLM 的结构感知推理直接解决这两个问题。
相关概念
- iterative-reading — 使用排序结果进行后续阅读
- hierarchy-preservation — 层级保持机制
- mineru — PDF 转换工具
- content-grounded-retrieval — 内容锚定检索