Files
myWiki/concepts/pageindex.md

1.5 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
PageIndex 2026-06-24 2026-06-24 concept
rag
document-retrieval
financial-nlp
long-document
financial-llm-practice-2026

PageIndex

PageIndex 是一种面向长文档的检索方案,由恒生电子团队在金融文档场景中提出。其核心思想是:利用文档的目录/章节结构作为天然索引,而非依赖全局向量检索。

核心机制

  1. 离线解析:解析文档标题层级,建立"章节名 ↔ 页码范围"的映射索引
  2. 查询匹配:先将用户查询与章节目录匹配,确定目标章节
  3. 范围压缩:将检索范围从全文档(如 300 页)压缩到目标章节(如 3 页)
  4. 精细检索:在定位范围内做精细 chunk 检索BM25 或向量)

与向量检索的对比

维度 PageIndex 传统向量 RAG
索引粒度 章节级 chunk 级
检索范围 3 页 300 页
表格完整性 完整(章节内) 表头与数据可能分离
精确匹配 强(可下钻到页码) 弱(语义近邻引入噪声)

金融场景优势

金融文档受监管严格约束目录与章节结构本身即为最强索引。PageIndex 回归"人找文档先翻目录"的第一性原理,特别适合招股书、审计报告、合同等有明确结构的超长文档。

参考