SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.5 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

PageIndex

2026-06-24

2026-06-24

concept

rag

document-retrieval

financial-nlp

long-document

financial-llm-practice-2026

PageIndex

PageIndex 是一种面向长文档的检索方案，由恒生电子团队在金融文档场景中提出。其核心思想是：利用文档的目录/章节结构作为天然索引，而非依赖全局向量检索。

核心机制

离线解析：解析文档标题层级，建立"章节名 ↔ 页码范围"的映射索引
查询匹配：先将用户查询与章节目录匹配，确定目标章节
范围压缩：将检索范围从全文档（如 300 页）压缩到目标章节（如 3 页）
精细检索：在定位范围内做精细 chunk 检索（BM25 或向量）

与向量检索的对比

维度	PageIndex	传统向量 RAG
索引粒度	章节级	chunk 级
检索范围	3 页	300 页
表格完整性	完整（章节内）	表头与数据可能分离
精确匹配	强（可下钻到页码）	弱（语义近邻引入噪声）

金融场景优势

金融文档受监管严格约束，目录与章节结构本身即为最强索引。PageIndex 回归"人找文档先翻目录"的第一性原理，特别适合招股书、审计报告、合同等有明确结构的超长文档。

参考