20260625:很多新内容
This commit is contained in:
42
concepts/bm25-financial-retrieval.md
Normal file
42
concepts/bm25-financial-retrieval.md
Normal file
@@ -0,0 +1,42 @@
|
||||
---
|
||||
title: "BM25 金融检索"
|
||||
created: 2026-06-24
|
||||
updated: 2026-06-24
|
||||
type: concept
|
||||
tags: ["information-retrieval", "financial-nlp", "bm25", "vector-search"]
|
||||
sources:
|
||||
- "[[financial-llm-practice-2026]]"
|
||||
---
|
||||
|
||||
# BM25 在金融精确检索中的应用
|
||||
|
||||
BM25 是一种基于词频-逆文档频率(TF-IDF)的经典信息检索算法。在金融场景中,恒生电子团队发现 BM25 在精确匹配场景下表现优于向量检索。
|
||||
|
||||
## 为什么金融场景 BM25 更优
|
||||
|
||||
金融查询大量涉及**精确匹配需求**:
|
||||
- 股票代码(如 "600519")
|
||||
- 专有名词(如 "超额累进税率")
|
||||
- 精确数字(如 "净利润超过 10 亿")
|
||||
- 法规条款编号(如 "第三十二条")
|
||||
|
||||
向量检索的"语义近邻"在这些场景中反而引入噪声——语义相近但代码/数字不同的结果会被错误召回。
|
||||
|
||||
## 与向量检索的适用边界
|
||||
|
||||
| 场景 | BM25 | 向量检索 |
|
||||
|------|------|---------|
|
||||
| 精确代码/编号 | ✅ 强 | ❌ 弱 |
|
||||
| 专有名词匹配 | ✅ 强 | ⚠️ 可能漂移 |
|
||||
| 数字精确匹配 | ✅ 强 | ❌ 弱 |
|
||||
| 同义改写查询 | ❌ 弱 | ✅ 强 |
|
||||
| 跨语言检索 | ❌ 弱 | ✅ 强 |
|
||||
|
||||
## 行业趋势
|
||||
|
||||
恒生电子 2023 年主动去掉向量检索的决策,后被 OpenAI 的无向量化 RAG 技术路径所印证——在特定领域,结构化索引+关键词匹配可能比语义检索更可靠。
|
||||
|
||||
## 参考
|
||||
- [[financial-llm-practice-2026|金融行业大模型落地实践]]
|
||||
- [[pageindex]]
|
||||
- [[agentic-rag]]
|
||||
Reference in New Issue
Block a user