Files
myWiki/concepts/pageindex.md

39 lines
1.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "PageIndex"
created: 2026-06-24
updated: 2026-06-24
type: concept
tags: ["rag", "document-retrieval", "financial-nlp", "long-document"]
sources:
- "[[financial-llm-practice-2026]]"
---
# PageIndex
PageIndex 是一种面向长文档的检索方案,由恒生电子团队在金融文档场景中提出。其核心思想是:**利用文档的目录/章节结构作为天然索引**,而非依赖全局向量检索。
## 核心机制
1. **离线解析**:解析文档标题层级,建立"章节名 ↔ 页码范围"的映射索引
2. **查询匹配**:先将用户查询与章节目录匹配,确定目标章节
3. **范围压缩**:将检索范围从全文档(如 300 页)压缩到目标章节(如 3 页)
4. **精细检索**:在定位范围内做精细 chunk 检索BM25 或向量)
## 与向量检索的对比
| 维度 | PageIndex | 传统向量 RAG |
|------|-----------|-------------|
| 索引粒度 | 章节级 | chunk 级 |
| 检索范围 | 3 页 | 300 页 |
| 表格完整性 | 完整(章节内) | 表头与数据可能分离 |
| 精确匹配 | 强(可下钻到页码) | 弱(语义近邻引入噪声) |
## 金融场景优势
金融文档受监管严格约束目录与章节结构本身即为最强索引。PageIndex 回归"人找文档先翻目录"的第一性原理,特别适合招股书、审计报告、合同等有明确结构的超长文档。
## 参考
- [[financial-llm-practice-2026|金融行业大模型落地实践]]
- [[agentic-rag]]
- [[bm25-financial-retrieval]]