Files
myWiki/concepts/section-ranking.md

1.8 KiB
Raw Blame History

title, type, created, tags, sources
title type created tags sources
Section Ranking — Structure-Aware Literature Section Prioritization concept 2026-06-04
information-retrieval
ranking
scientific-literature
llm-reasoning
ma-intragent-2026

Section Ranking章节排序

定义IntrAgent 第一阶段的核心机制——利用科学文献的结构知识,通过 LLM 推理对章节按与查询的相关性进行排序。

三步流程

1. 章节标题解析Section Heading Parsing

  • 使用 mineru(视觉模型)将 PDF 转为 Markdown
  • 统一提取所有 # Section## Subsection 标题
  • 标准化不同模板的文献格式

2. hierarchy-preservationHierarchy Preservation

  • LLM 推导章节之间的父子/兄弟关系
  • 构建完整的章节树
  • 过滤冗余节点(父章节后紧跟子章节且无中间内容时去重)

3. 推理排序Reasoning-Based Ranking

  • LLM 基于结构化知识推理哪个章节最可能包含答案
  • 输出排序列表 R = [r₁, ..., rₙ]
  • 按此顺序供迭代阅读阶段依次访问

与语义相似度排序的对比

传统的 rag 使用 embedding 余弦相似度对文本片段排序,存在两个根本问题:

  • 领域术语错位:查询中的术语可能与文献中使用的术语完全不同(如同义词、缩写)
  • 忽略结构:科学文献的层级结构(方法→结果→讨论)蕴含重要的语义信息,平面检索丢失这些

IntrAgent 的推理排序通过 LLM 的结构感知推理直接解决这两个问题。

相关概念