20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/section-ranking.md
+++ b/concepts/section-ranking.md
@@ -0,0 +1,43 @@
+---
+title: "Section Ranking — Structure-Aware Literature Section Prioritization"
+type: concept
+created: 2026-06-04
+tags: [information-retrieval, ranking, scientific-literature, llm-reasoning]
+sources: ["ma-intragent-2026"]
+---
+
+# Section Ranking（章节排序）
+
+**定义**：IntrAgent 第一阶段的核心机制——利用科学文献的结构知识，通过 LLM 推理对章节按与查询的相关性进行排序。
+
+## 三步流程
+
+### 1. 章节标题解析（Section Heading Parsing）
+- 使用 [[mineru]]（视觉模型）将 PDF 转为 Markdown
+- 统一提取所有 `# Section` 和 `## Subsection` 标题
+- 标准化不同模板的文献格式
+
+### 2. [[hierarchy-preservation|层级保持]]（Hierarchy Preservation）
+- LLM 推导章节之间的父子/兄弟关系
+- 构建完整的章节树
+- 过滤冗余节点（父章节后紧跟子章节且无中间内容时去重）
+
+### 3. 推理排序（Reasoning-Based Ranking）
+- LLM 基于结构化知识推理哪个章节最可能包含答案
+- 输出排序列表 R = [r₁, ..., rₙ]
+- 按此顺序供迭代阅读阶段依次访问
+
+## 与语义相似度排序的对比
+
+传统的 [[rag|RAG]] 使用 embedding 余弦相似度对文本片段排序，存在两个根本问题：
+- **领域术语错位**：查询中的术语可能与文献中使用的术语完全不同（如同义词、缩写）
+- **忽略结构**：科学文献的层级结构（方法→结果→讨论）蕴含重要的语义信息，平面检索丢失这些
+
+IntrAgent 的推理排序通过 LLM 的结构感知推理直接解决这两个问题。
+
+## 相关概念
+
+- [[iterative-reading|迭代阅读]] — 使用排序结果进行后续阅读
+- [[hierarchy-preservation]] — 层级保持机制
+- [[mineru]] — PDF 转换工具
+- [[content-grounded-retrieval]] — 内容锚定检索