20260625:很多新内容
This commit is contained in:
38
concepts/pageindex.md
Normal file
38
concepts/pageindex.md
Normal file
@@ -0,0 +1,38 @@
|
||||
---
|
||||
title: "PageIndex"
|
||||
created: 2026-06-24
|
||||
updated: 2026-06-24
|
||||
type: concept
|
||||
tags: ["rag", "document-retrieval", "financial-nlp", "long-document"]
|
||||
sources:
|
||||
- "[[financial-llm-practice-2026]]"
|
||||
---
|
||||
|
||||
# PageIndex
|
||||
|
||||
PageIndex 是一种面向长文档的检索方案,由恒生电子团队在金融文档场景中提出。其核心思想是:**利用文档的目录/章节结构作为天然索引**,而非依赖全局向量检索。
|
||||
|
||||
## 核心机制
|
||||
|
||||
1. **离线解析**:解析文档标题层级,建立"章节名 ↔ 页码范围"的映射索引
|
||||
2. **查询匹配**:先将用户查询与章节目录匹配,确定目标章节
|
||||
3. **范围压缩**:将检索范围从全文档(如 300 页)压缩到目标章节(如 3 页)
|
||||
4. **精细检索**:在定位范围内做精细 chunk 检索(BM25 或向量)
|
||||
|
||||
## 与向量检索的对比
|
||||
|
||||
| 维度 | PageIndex | 传统向量 RAG |
|
||||
|------|-----------|-------------|
|
||||
| 索引粒度 | 章节级 | chunk 级 |
|
||||
| 检索范围 | 3 页 | 300 页 |
|
||||
| 表格完整性 | 完整(章节内) | 表头与数据可能分离 |
|
||||
| 精确匹配 | 强(可下钻到页码) | 弱(语义近邻引入噪声) |
|
||||
|
||||
## 金融场景优势
|
||||
|
||||
金融文档受监管严格约束,目录与章节结构本身即为最强索引。PageIndex 回归"人找文档先翻目录"的第一性原理,特别适合招股书、审计报告、合同等有明确结构的超长文档。
|
||||
|
||||
## 参考
|
||||
- [[financial-llm-practice-2026|金融行业大模型落地实践]]
|
||||
- [[agentic-rag]]
|
||||
- [[bm25-financial-retrieval]]
|
||||
Reference in New Issue
Block a user