myWiki/concepts/pageindex.md

---
title: "PageIndex"
created: 2026-06-24
updated: 2026-06-24
type: concept
tags: ["rag", "document-retrieval", "financial-nlp", "long-document"]
sources:
  - "[[financial-llm-practice-2026]]"
---

# PageIndex

PageIndex 是一种面向长文档的检索方案，由恒生电子团队在金融文档场景中提出。其核心思想是：**利用文档的目录/章节结构作为天然索引**，而非依赖全局向量检索。

## 核心机制

1. **离线解析**：解析文档标题层级，建立"章节名 ↔ 页码范围"的映射索引
2. **查询匹配**：先将用户查询与章节目录匹配，确定目标章节
3. **范围压缩**：将检索范围从全文档（如 300 页）压缩到目标章节（如 3 页）
4. **精细检索**：在定位范围内做精细 chunk 检索（BM25 或向量）

## 与向量检索的对比

| 维度 | PageIndex | 传统向量 RAG |
|------|-----------|-------------|
| 索引粒度 | 章节级 | chunk 级 |
| 检索范围 | 3 页 | 300 页 |
| 表格完整性 | 完整（章节内） | 表头与数据可能分离 |
| 精确匹配 | 强（可下钻到页码） | 弱（语义近邻引入噪声） |

## 金融场景优势

金融文档受监管严格约束，目录与章节结构本身即为最强索引。PageIndex 回归"人找文档先翻目录"的第一性原理，特别适合招股书、审计报告、合同等有明确结构的超长文档。

## 参考
- [[financial-llm-practice-2026|金融行业大模型落地实践]]
- [[agentic-rag]]
- [[bm25-financial-retrieval]]