title, created, updated, type, tags, sources
| title |
created |
updated |
type |
tags |
sources |
| PageIndex |
2026-06-24 |
2026-06-24 |
concept |
| rag |
| document-retrieval |
| financial-nlp |
| long-document |
|
|
PageIndex
PageIndex 是一种面向长文档的检索方案,由恒生电子团队在金融文档场景中提出。其核心思想是:利用文档的目录/章节结构作为天然索引,而非依赖全局向量检索。
核心机制
- 离线解析:解析文档标题层级,建立"章节名 ↔ 页码范围"的映射索引
- 查询匹配:先将用户查询与章节目录匹配,确定目标章节
- 范围压缩:将检索范围从全文档(如 300 页)压缩到目标章节(如 3 页)
- 精细检索:在定位范围内做精细 chunk 检索(BM25 或向量)
与向量检索的对比
| 维度 |
PageIndex |
传统向量 RAG |
| 索引粒度 |
章节级 |
chunk 级 |
| 检索范围 |
3 页 |
300 页 |
| 表格完整性 |
完整(章节内) |
表头与数据可能分离 |
| 精确匹配 |
强(可下钻到页码) |
弱(语义近邻引入噪声) |
金融场景优势
金融文档受监管严格约束,目录与章节结构本身即为最强索引。PageIndex 回归"人找文档先翻目录"的第一性原理,特别适合招股书、审计报告、合同等有明确结构的超长文档。
参考