--- title: "金融行业大模型落地实践(林金曙,2026)" created: 2026-06-24 updated: 2026-06-24 type: article tags: ["financial-llm", "agent-engineering", "rag", "pageindex", "context-engineering", "mcp"] sources: - "https://mp.weixin.qq.com/s/3iObkj6BKhZzphJ1URVOKg" --- # 金融行业大模型落地实践 > 恒生电子研究院 AI 首席技术专家林金曙在 DAcon 上海站 2026 的分享,系统梳理金融行业大模型工程实践。 ## 背景 金融行业的大模型落地面临三重硬约束——合规(可溯源+人工确认)、安全(私有化部署+数据不出域)、严谨(数据质量>模型能力)。团队的核心判断:不要用通用模型覆盖一切,而应基于大模型重构金融 IT 架构——业务能力原子化(Skills)、金融大模型插件化、面向大模型友好的数据层([[aidb]])。 ## 核心方案 ### 长文档检索:[[pageindex]] + [[agentic-rag]] 金融文档(如蜜雪冰城 1300 页招股书)让传统 RAG 直接失效。PageIndex 利用监管强制要求的目录结构建立"章节名↔页码范围"映射,检索范围从 300 页压缩到 3 页。Agentic RAG 在此基础上将任务拆解为子问题,动态调用多种检索工具,自我评估信息充分性。组合使用后单 chunk 召回准确率 >95%。 反常识决策:团队 2023 年主动去掉了向量检索。金融查询有大量精确匹配(代码、专有名词、数字),[[bm25-financial-retrieval|BM25]] 在精确查询场景反而更准——这一判断后被 OpenAI 无向量化 RAG 路径印证。 ### 审核工程:[[financial-llm-requirements|好需求定义]] + [[financial-llm-model-selection|模型选型]] "差需求":丢给模型几百页底稿说"审一下"。"好需求"需告知三件事: 1. **在哪里看** — 限定章节范围而非全文 2. **看什么** — 用业务语言(如"注册资本")而非系统拼音缩写 3. **怎么判** — 将 SOP 写成可执行判断条件 选型教训:Qwen3-32B 需 530 条规则、4300 行代码,三人离职;换 Qwen3-235B(4×H800,约 60 万一次性投入)后规则砍半,准确率 +45pp。结论:小模型省下的算力钱远不够覆盖人力成本。 ### [[context-engineering|上下文工程]] Prompt 从 24K token 压缩到 3K——核心做法是 180 个财务指标按需拼入,章节目录与表头信息动态使用。最难的不是模型推理,而是让模型在恰当时机看到恰当信息。 模型能力边界:擅长语义理解、意图识别、非结构化字段抽取、改写摘要、分类打标;不擅长高精度数值计算、跨段落勾稽比对、长链条多步推理、实时高并发零容错。 ## Agent 工程 金融 Agent 需操作业务系统:读文件、调接口、写结果、必要时提问人。OpenClaw 暴露四短板:[[financial-agent-permission|权限边界模糊]]、审计不足、插件无管控、幻觉无兜底。 三件事须同时成立: - 模型侧:任务拆解/规划/反思 + 长上下文 + Function Call 稳定性 - 工具侧:[[agent-skill-atomization|业务能力 Skill 原子化]] + [[mcp-protocol|MCP 协议]]接入 - 资源侧:[[aidb|AIDB]] 文档结构化、知识分片、接口描述业务化 每个 Skill 需明确物料、数据来源、权限级别(只读/只调代码/写需人工确认)。接口描述改造示例:"基金分红历史信息" → "【查询】基金分红【过去指定时间】范围内的分红记录"。 ## 核心洞见 1. **不卷织布速,卷机器驾驭力** — 竞争力在于能指挥多少个 AI Agent 2. **交付乐高式 Skills** — 拼好的乐高小车而非零碎积木 3. **工程师转身审核员** — 价值转向定义标准、审核结果、设计约束 4. **弃大脑之争,筑神经之基** — 不训练大模型,专注数据底座、接口标准、知识体系 ## 来源 [原始存档](raw/articles/financial-llm-practice-2026.md)