--- title: "BM25 金融检索" created: 2026-06-24 updated: 2026-06-24 type: concept tags: ["information-retrieval", "financial-nlp", "bm25", "vector-search"] sources: - "[[financial-llm-practice-2026]]" --- # BM25 在金融精确检索中的应用 BM25 是一种基于词频-逆文档频率(TF-IDF)的经典信息检索算法。在金融场景中,恒生电子团队发现 BM25 在精确匹配场景下表现优于向量检索。 ## 为什么金融场景 BM25 更优 金融查询大量涉及**精确匹配需求**: - 股票代码(如 "600519") - 专有名词(如 "超额累进税率") - 精确数字(如 "净利润超过 10 亿") - 法规条款编号(如 "第三十二条") 向量检索的"语义近邻"在这些场景中反而引入噪声——语义相近但代码/数字不同的结果会被错误召回。 ## 与向量检索的适用边界 | 场景 | BM25 | 向量检索 | |------|------|---------| | 精确代码/编号 | ✅ 强 | ❌ 弱 | | 专有名词匹配 | ✅ 强 | ⚠️ 可能漂移 | | 数字精确匹配 | ✅ 强 | ❌ 弱 | | 同义改写查询 | ❌ 弱 | ✅ 强 | | 跨语言检索 | ❌ 弱 | ✅ 强 | ## 行业趋势 恒生电子 2023 年主动去掉向量检索的决策,后被 OpenAI 的无向量化 RAG 技术路径所印证——在特定领域,结构化索引+关键词匹配可能比语义检索更可靠。 ## 参考 - [[financial-llm-practice-2026|金融行业大模型落地实践]] - [[pageindex]] - [[agentic-rag]]