1.5 KiB
1.5 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| BM25 金融检索 | 2026-06-24 | 2026-06-24 | concept |
|
|
BM25 在金融精确检索中的应用
BM25 是一种基于词频-逆文档频率(TF-IDF)的经典信息检索算法。在金融场景中,恒生电子团队发现 BM25 在精确匹配场景下表现优于向量检索。
为什么金融场景 BM25 更优
金融查询大量涉及精确匹配需求:
- 股票代码(如 "600519")
- 专有名词(如 "超额累进税率")
- 精确数字(如 "净利润超过 10 亿")
- 法规条款编号(如 "第三十二条")
向量检索的"语义近邻"在这些场景中反而引入噪声——语义相近但代码/数字不同的结果会被错误召回。
与向量检索的适用边界
| 场景 | BM25 | 向量检索 |
|---|---|---|
| 精确代码/编号 | ✅ 强 | ❌ 弱 |
| 专有名词匹配 | ✅ 强 | ⚠️ 可能漂移 |
| 数字精确匹配 | ✅ 强 | ❌ 弱 |
| 同义改写查询 | ❌ 弱 | ✅ 强 |
| 跨语言检索 | ❌ 弱 | ✅ 强 |
行业趋势
恒生电子 2023 年主动去掉向量检索的决策,后被 OpenAI 的无向量化 RAG 技术路径所印证——在特定领域,结构化索引+关键词匹配可能比语义检索更可靠。