43 lines
1.5 KiB
Markdown
43 lines
1.5 KiB
Markdown
---
|
||
title: "BM25 金融检索"
|
||
created: 2026-06-24
|
||
updated: 2026-06-24
|
||
type: concept
|
||
tags: ["information-retrieval", "financial-nlp", "bm25", "vector-search"]
|
||
sources:
|
||
- "[[financial-llm-practice-2026]]"
|
||
---
|
||
|
||
# BM25 在金融精确检索中的应用
|
||
|
||
BM25 是一种基于词频-逆文档频率(TF-IDF)的经典信息检索算法。在金融场景中,恒生电子团队发现 BM25 在精确匹配场景下表现优于向量检索。
|
||
|
||
## 为什么金融场景 BM25 更优
|
||
|
||
金融查询大量涉及**精确匹配需求**:
|
||
- 股票代码(如 "600519")
|
||
- 专有名词(如 "超额累进税率")
|
||
- 精确数字(如 "净利润超过 10 亿")
|
||
- 法规条款编号(如 "第三十二条")
|
||
|
||
向量检索的"语义近邻"在这些场景中反而引入噪声——语义相近但代码/数字不同的结果会被错误召回。
|
||
|
||
## 与向量检索的适用边界
|
||
|
||
| 场景 | BM25 | 向量检索 |
|
||
|------|------|---------|
|
||
| 精确代码/编号 | ✅ 强 | ❌ 弱 |
|
||
| 专有名词匹配 | ✅ 强 | ⚠️ 可能漂移 |
|
||
| 数字精确匹配 | ✅ 强 | ❌ 弱 |
|
||
| 同义改写查询 | ❌ 弱 | ✅ 强 |
|
||
| 跨语言检索 | ❌ 弱 | ✅ 强 |
|
||
|
||
## 行业趋势
|
||
|
||
恒生电子 2023 年主动去掉向量检索的决策,后被 OpenAI 的无向量化 RAG 技术路径所印证——在特定领域,结构化索引+关键词匹配可能比语义检索更可靠。
|
||
|
||
## 参考
|
||
- [[financial-llm-practice-2026|金融行业大模型落地实践]]
|
||
- [[pageindex]]
|
||
- [[agentic-rag]]
|