Files
myWiki/concepts/bm25-financial-retrieval.md

1.5 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
BM25 金融检索 2026-06-24 2026-06-24 concept
information-retrieval
financial-nlp
bm25
vector-search
financial-llm-practice-2026

BM25 在金融精确检索中的应用

BM25 是一种基于词频-逆文档频率TF-IDF的经典信息检索算法。在金融场景中恒生电子团队发现 BM25 在精确匹配场景下表现优于向量检索。

为什么金融场景 BM25 更优

金融查询大量涉及精确匹配需求

  • 股票代码(如 "600519"
  • 专有名词(如 "超额累进税率"
  • 精确数字(如 "净利润超过 10 亿"
  • 法规条款编号(如 "第三十二条"

向量检索的"语义近邻"在这些场景中反而引入噪声——语义相近但代码/数字不同的结果会被错误召回。

与向量检索的适用边界

场景 BM25 向量检索
精确代码/编号
专有名词匹配 ⚠️ 可能漂移
数字精确匹配
同义改写查询
跨语言检索

行业趋势

恒生电子 2023 年主动去掉向量检索的决策,后被 OpenAI 的无向量化 RAG 技术路径所印证——在特定领域,结构化索引+关键词匹配可能比语义检索更可靠。

参考