SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.8 KiB

Raw Blame History

title, type, created, tags, sources

title

type

created

tags

sources

Section Ranking — Structure-Aware Literature Section Prioritization

concept

2026-06-04

information-retrieval

ranking

scientific-literature

llm-reasoning

ma-intragent-2026

Section Ranking（章节排序）

定义：IntrAgent 第一阶段的核心机制——利用科学文献的结构知识，通过 LLM 推理对章节按与查询的相关性进行排序。

三步流程

1. 章节标题解析（Section Heading Parsing）

使用 mineru（视觉模型）将 PDF 转为 Markdown
统一提取所有 # Section 和 ## Subsection 标题
标准化不同模板的文献格式

2. hierarchy-preservation（Hierarchy Preservation）

LLM 推导章节之间的父子/兄弟关系
构建完整的章节树
过滤冗余节点（父章节后紧跟子章节且无中间内容时去重）

3. 推理排序（Reasoning-Based Ranking）

LLM 基于结构化知识推理哪个章节最可能包含答案
输出排序列表 R = [r₁, ..., rₙ]
按此顺序供迭代阅读阶段依次访问

与语义相似度排序的对比

传统的 rag 使用 embedding 余弦相似度对文本片段排序，存在两个根本问题：

领域术语错位：查询中的术语可能与文献中使用的术语完全不同（如同义词、缩写）
忽略结构：科学文献的层级结构（方法→结果→讨论）蕴含重要的语义信息，平面检索丢失这些

IntrAgent 的推理排序通过 LLM 的结构感知推理直接解决这两个问题。

相关概念

iterative-reading — 使用排序结果进行后续阅读
hierarchy-preservation — 层级保持机制
mineru — PDF 转换工具
content-grounded-retrieval — 内容锚定检索