金融行业大模型落地实践

恒生电子研究院 AI 首席技术专家林金曙在 DAcon 上海站 2026 的分享，系统梳理金融行业大模型工程实践。

背景

金融行业的大模型落地面临三重硬约束——合规（可溯源+人工确认）、安全（私有化部署+数据不出域）、严谨（数据质量>模型能力）。团队的核心判断：不要用通用模型覆盖一切，而应基于大模型重构金融 IT 架构——业务能力原子化（Skills）、金融大模型插件化、面向大模型友好的数据层（aidb）。

核心方案

长文档检索：pageindex + agentic-rag

金融文档（如蜜雪冰城 1300 页招股书）让传统 RAG 直接失效。PageIndex 利用监管强制要求的目录结构建立"章节名↔页码范围"映射，检索范围从 300 页压缩到 3 页。Agentic RAG 在此基础上将任务拆解为子问题，动态调用多种检索工具，自我评估信息充分性。组合使用后单 chunk 召回准确率 >95%。

反常识决策：团队 2023 年主动去掉了向量检索。金融查询有大量精确匹配（代码、专有名词、数字），bm25-financial-retrieval 在精确查询场景反而更准——这一判断后被 OpenAI 无向量化 RAG 路径印证。

审核工程：financial-llm-requirements + financial-llm-model-selection

"差需求"：丢给模型几百页底稿说"审一下"。"好需求"需告知三件事：

在哪里看 — 限定章节范围而非全文
看什么 — 用业务语言（如"注册资本"）而非系统拼音缩写
怎么判 — 将 SOP 写成可执行判断条件

选型教训：Qwen3-32B 需 530 条规则、4300 行代码，三人离职；换 Qwen3-235B（4×H800，约 60 万一次性投入）后规则砍半，准确率 +45pp。结论：小模型省下的算力钱远不够覆盖人力成本。

context-engineering

Prompt 从 24K token 压缩到 3K——核心做法是 180 个财务指标按需拼入，章节目录与表头信息动态使用。最难的不是模型推理，而是让模型在恰当时机看到恰当信息。

模型能力边界：擅长语义理解、意图识别、非结构化字段抽取、改写摘要、分类打标；不擅长高精度数值计算、跨段落勾稽比对、长链条多步推理、实时高并发零容错。

Agent 工程

金融 Agent 需操作业务系统：读文件、调接口、写结果、必要时提问人。OpenClaw 暴露四短板：financial-agent-permission、审计不足、插件无管控、幻觉无兜底。

三件事须同时成立：

模型侧：任务拆解/规划/反思 + 长上下文 + Function Call 稳定性
工具侧：agent-skill-atomization + mcp-protocol接入
资源侧：aidb 文档结构化、知识分片、接口描述业务化

每个 Skill 需明确物料、数据来源、权限级别（只读/只调代码/写需人工确认）。接口描述改造示例："基金分红历史信息" → "【查询】基金分红【过去指定时间】范围内的分红记录"。

核心洞见

不卷织布速，卷机器驾驭力 — 竞争力在于能指挥多少个 AI Agent
交付乐高式 Skills — 拼好的乐高小车而非零碎积木
工程师转身审核员 — 价值转向定义标准、审核结果、设计约束
弃大脑之争，筑神经之基 — 不训练大模型，专注数据底座、接口标准、知识体系

来源

原始存档

3.9 KiB Raw Blame History Unescape Escape