3.9 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 金融行业大模型落地实践(林金曙,2026) | 2026-06-24 | 2026-06-24 | article |
|
|
金融行业大模型落地实践
恒生电子研究院 AI 首席技术专家林金曙在 DAcon 上海站 2026 的分享,系统梳理金融行业大模型工程实践。
背景
金融行业的大模型落地面临三重硬约束——合规(可溯源+人工确认)、安全(私有化部署+数据不出域)、严谨(数据质量>模型能力)。团队的核心判断:不要用通用模型覆盖一切,而应基于大模型重构金融 IT 架构——业务能力原子化(Skills)、金融大模型插件化、面向大模型友好的数据层(aidb)。
核心方案
长文档检索:pageindex + agentic-rag
金融文档(如蜜雪冰城 1300 页招股书)让传统 RAG 直接失效。PageIndex 利用监管强制要求的目录结构建立"章节名↔页码范围"映射,检索范围从 300 页压缩到 3 页。Agentic RAG 在此基础上将任务拆解为子问题,动态调用多种检索工具,自我评估信息充分性。组合使用后单 chunk 召回准确率 >95%。
反常识决策:团队 2023 年主动去掉了向量检索。金融查询有大量精确匹配(代码、专有名词、数字),bm25-financial-retrieval 在精确查询场景反而更准——这一判断后被 OpenAI 无向量化 RAG 路径印证。
审核工程:financial-llm-requirements + financial-llm-model-selection
"差需求":丢给模型几百页底稿说"审一下"。"好需求"需告知三件事:
- 在哪里看 — 限定章节范围而非全文
- 看什么 — 用业务语言(如"注册资本")而非系统拼音缩写
- 怎么判 — 将 SOP 写成可执行判断条件
选型教训:Qwen3-32B 需 530 条规则、4300 行代码,三人离职;换 Qwen3-235B(4×H800,约 60 万一次性投入)后规则砍半,准确率 +45pp。结论:小模型省下的算力钱远不够覆盖人力成本。
context-engineering
Prompt 从 24K token 压缩到 3K——核心做法是 180 个财务指标按需拼入,章节目录与表头信息动态使用。最难的不是模型推理,而是让模型在恰当时机看到恰当信息。
模型能力边界:擅长语义理解、意图识别、非结构化字段抽取、改写摘要、分类打标;不擅长高精度数值计算、跨段落勾稽比对、长链条多步推理、实时高并发零容错。
Agent 工程
金融 Agent 需操作业务系统:读文件、调接口、写结果、必要时提问人。OpenClaw 暴露四短板:financial-agent-permission、审计不足、插件无管控、幻觉无兜底。
三件事须同时成立:
- 模型侧:任务拆解/规划/反思 + 长上下文 + Function Call 稳定性
- 工具侧:agent-skill-atomization + mcp-protocol接入
- 资源侧:aidb 文档结构化、知识分片、接口描述业务化
每个 Skill 需明确物料、数据来源、权限级别(只读/只调代码/写需人工确认)。接口描述改造示例:"基金分红历史信息" → "【查询】基金分红【过去指定时间】范围内的分红记录"。
核心洞见
- 不卷织布速,卷机器驾驭力 — 竞争力在于能指挥多少个 AI Agent
- 交付乐高式 Skills — 拼好的乐高小车而非零碎积木
- 工程师转身审核员 — 价值转向定义标准、审核结果、设计约束
- 弃大脑之争,筑神经之基 — 不训练大模型,专注数据底座、接口标准、知识体系