Files
myWiki/concepts/bm25-financial-retrieval.md

43 lines
1.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "BM25 金融检索"
created: 2026-06-24
updated: 2026-06-24
type: concept
tags: ["information-retrieval", "financial-nlp", "bm25", "vector-search"]
sources:
- "[[financial-llm-practice-2026]]"
---
# BM25 在金融精确检索中的应用
BM25 是一种基于词频-逆文档频率TF-IDF的经典信息检索算法。在金融场景中恒生电子团队发现 BM25 在精确匹配场景下表现优于向量检索。
## 为什么金融场景 BM25 更优
金融查询大量涉及**精确匹配需求**
- 股票代码(如 "600519"
- 专有名词(如 "超额累进税率"
- 精确数字(如 "净利润超过 10 亿"
- 法规条款编号(如 "第三十二条"
向量检索的"语义近邻"在这些场景中反而引入噪声——语义相近但代码/数字不同的结果会被错误召回。
## 与向量检索的适用边界
| 场景 | BM25 | 向量检索 |
|------|------|---------|
| 精确代码/编号 | ✅ 强 | ❌ 弱 |
| 专有名词匹配 | ✅ 强 | ⚠️ 可能漂移 |
| 数字精确匹配 | ✅ 强 | ❌ 弱 |
| 同义改写查询 | ❌ 弱 | ✅ 强 |
| 跨语言检索 | ❌ 弱 | ✅ 强 |
## 行业趋势
恒生电子 2023 年主动去掉向量检索的决策,后被 OpenAI 的无向量化 RAG 技术路径所印证——在特定领域,结构化索引+关键词匹配可能比语义检索更可靠。
## 参考
- [[financial-llm-practice-2026|金融行业大模型落地实践]]
- [[pageindex]]
- [[agentic-rag]]