20260625:很多新内容

This commit is contained in:
2026-06-25 14:08:47 +08:00
parent 91fac5b6fc
commit 6021dea160
375 changed files with 19263 additions and 251 deletions

View File

@@ -0,0 +1,42 @@
---
title: "BM25 金融检索"
created: 2026-06-24
updated: 2026-06-24
type: concept
tags: ["information-retrieval", "financial-nlp", "bm25", "vector-search"]
sources:
- "[[financial-llm-practice-2026]]"
---
# BM25 在金融精确检索中的应用
BM25 是一种基于词频-逆文档频率TF-IDF的经典信息检索算法。在金融场景中恒生电子团队发现 BM25 在精确匹配场景下表现优于向量检索。
## 为什么金融场景 BM25 更优
金融查询大量涉及**精确匹配需求**
- 股票代码(如 "600519"
- 专有名词(如 "超额累进税率"
- 精确数字(如 "净利润超过 10 亿"
- 法规条款编号(如 "第三十二条"
向量检索的"语义近邻"在这些场景中反而引入噪声——语义相近但代码/数字不同的结果会被错误召回。
## 与向量检索的适用边界
| 场景 | BM25 | 向量检索 |
|------|------|---------|
| 精确代码/编号 | ✅ 强 | ❌ 弱 |
| 专有名词匹配 | ✅ 强 | ⚠️ 可能漂移 |
| 数字精确匹配 | ✅ 强 | ❌ 弱 |
| 同义改写查询 | ❌ 弱 | ✅ 强 |
| 跨语言检索 | ❌ 弱 | ✅ 强 |
## 行业趋势
恒生电子 2023 年主动去掉向量检索的决策,后被 OpenAI 的无向量化 RAG 技术路径所印证——在特定领域,结构化索引+关键词匹配可能比语义检索更可靠。
## 参考
- [[financial-llm-practice-2026|金融行业大模型落地实践]]
- [[pageindex]]
- [[agentic-rag]]