Files
myWiki/articles/financial-llm-practice-2026.md

3.9 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
金融行业大模型落地实践林金曙2026 2026-06-24 2026-06-24 article
financial-llm
agent-engineering
rag
pageindex
context-engineering
mcp
https://mp.weixin.qq.com/s/3iObkj6BKhZzphJ1URVOKg

金融行业大模型落地实践

恒生电子研究院 AI 首席技术专家林金曙在 DAcon 上海站 2026 的分享,系统梳理金融行业大模型工程实践。

背景

金融行业的大模型落地面临三重硬约束——合规(可溯源+人工确认)、安全(私有化部署+数据不出域)、严谨(数据质量>模型能力)。团队的核心判断:不要用通用模型覆盖一切,而应基于大模型重构金融 IT 架构——业务能力原子化Skills、金融大模型插件化、面向大模型友好的数据层aidb)。

核心方案

长文档检索:pageindex + agentic-rag

金融文档(如蜜雪冰城 1300 页招股书)让传统 RAG 直接失效。PageIndex 利用监管强制要求的目录结构建立"章节名↔页码范围"映射,检索范围从 300 页压缩到 3 页。Agentic RAG 在此基础上将任务拆解为子问题,动态调用多种检索工具,自我评估信息充分性。组合使用后单 chunk 召回准确率 >95%。

反常识决策:团队 2023 年主动去掉了向量检索。金融查询有大量精确匹配(代码、专有名词、数字),bm25-financial-retrieval 在精确查询场景反而更准——这一判断后被 OpenAI 无向量化 RAG 路径印证。

审核工程:financial-llm-requirements + financial-llm-model-selection

"差需求":丢给模型几百页底稿说"审一下"。"好需求"需告知三件事:

  1. 在哪里看 — 限定章节范围而非全文
  2. 看什么 — 用业务语言(如"注册资本")而非系统拼音缩写
  3. 怎么判 — 将 SOP 写成可执行判断条件

选型教训Qwen3-32B 需 530 条规则、4300 行代码,三人离职;换 Qwen3-235B4×H800约 60 万一次性投入)后规则砍半,准确率 +45pp。结论小模型省下的算力钱远不够覆盖人力成本。

context-engineering

Prompt 从 24K token 压缩到 3K——核心做法是 180 个财务指标按需拼入,章节目录与表头信息动态使用。最难的不是模型推理,而是让模型在恰当时机看到恰当信息。

模型能力边界:擅长语义理解、意图识别、非结构化字段抽取、改写摘要、分类打标;不擅长高精度数值计算、跨段落勾稽比对、长链条多步推理、实时高并发零容错。

Agent 工程

金融 Agent 需操作业务系统读文件、调接口、写结果、必要时提问人。OpenClaw 暴露四短板:financial-agent-permission、审计不足、插件无管控、幻觉无兜底。

三件事须同时成立:

  • 模型侧:任务拆解/规划/反思 + 长上下文 + Function Call 稳定性
  • 工具侧:agent-skill-atomization + mcp-protocol接入
  • 资源侧:aidb 文档结构化、知识分片、接口描述业务化

每个 Skill 需明确物料、数据来源、权限级别(只读/只调代码/写需人工确认)。接口描述改造示例:"基金分红历史信息" → "【查询】基金分红【过去指定时间】范围内的分红记录"。

核心洞见

  1. 不卷织布速,卷机器驾驭力 — 竞争力在于能指挥多少个 AI Agent
  2. 交付乐高式 Skills — 拼好的乐高小车而非零碎积木
  3. 工程师转身审核员 — 价值转向定义标准、审核结果、设计约束
  4. 弃大脑之争,筑神经之基 — 不训练大模型,专注数据底座、接口标准、知识体系

来源

原始存档