Files
myWiki/concepts/hierarchy-preservation.md

1.7 KiB
Raw Blame History

title, type, created, tags, sources
title type created tags sources
Hierarchy Preservation — Structural Knowledge for Literature Ranking concept 2026-06-04
document-structure
information-retrieval
llm-reasoning
ranking
ma-intragent-2026

Hierarchy Preservation层级保持

定义intragent section-ranking阶段的关键设计——通过 LLM 推导科学文献的章节层级关系,为推理排序提供结构知识。

问题

科学文献遵循严格的层级结构:

  • 父级标题传达更广泛的主题
  • 子级标题提供更具体的细节

传统的 rag 检索完全忽略这一结构——将所有章节视为平面的文本片段。

机制

  1. mineru 转换后的 Markdown 文本提取所有章节/子章节标题
  2. LLM 推理标题间的层级关系(父子/兄弟)
  3. 构建完整的章节树section tree
  4. 过滤冗余节点:父章节后紧跟子章节且无中间内容 → 去重

两个作用

  1. 支撑推理排序LLM 在排序时能看到完整的层级上下文——不仅知道"讨论"在最后,更知道"讨论.3 局限分析"是子章节
  2. 支撑迭代阅读:结构化文本解析确保迭代阅读阶段能正确导航章节树

与 RAG 的对比

维度 RAG (平面检索) 层级保持
知识表示 独立片段向量 树形结构
排序依据 语义相似度 结构+语义推理
上下文理解 片段级 章-节-小节全路径
跨节关联 无法表示 树边显式建模

相关概念