myWiki/articles/financial-llm-practice-2026.md

---
title: "金融行业大模型落地实践（林金曙，2026）"
created: 2026-06-24
updated: 2026-06-24
type: article
tags: ["financial-llm", "agent-engineering", "rag", "pageindex", "context-engineering", "mcp"]
sources:
  - "https://mp.weixin.qq.com/s/3iObkj6BKhZzphJ1URVOKg"
---

# 金融行业大模型落地实践

> 恒生电子研究院 AI 首席技术专家林金曙在 DAcon 上海站 2026 的分享，系统梳理金融行业大模型工程实践。

## 背景

金融行业的大模型落地面临三重硬约束——合规（可溯源+人工确认）、安全（私有化部署+数据不出域）、严谨（数据质量>模型能力）。团队的核心判断：不要用通用模型覆盖一切，而应基于大模型重构金融 IT 架构——业务能力原子化（Skills）、金融大模型插件化、面向大模型友好的数据层（[[aidb]]）。

## 核心方案

### 长文档检索：[[pageindex]] + [[agentic-rag]]

金融文档（如蜜雪冰城 1300 页招股书）让传统 RAG 直接失效。PageIndex 利用监管强制要求的目录结构建立"章节名↔页码范围"映射，检索范围从 300 页压缩到 3 页。Agentic RAG 在此基础上将任务拆解为子问题，动态调用多种检索工具，自我评估信息充分性。组合使用后单 chunk 召回准确率 >95%。

反常识决策：团队 2023 年主动去掉了向量检索。金融查询有大量精确匹配（代码、专有名词、数字），[[bm25-financial-retrieval|BM25]] 在精确查询场景反而更准——这一判断后被 OpenAI 无向量化 RAG 路径印证。

### 审核工程：[[financial-llm-requirements|好需求定义]] + [[financial-llm-model-selection|模型选型]]

"差需求"：丢给模型几百页底稿说"审一下"。"好需求"需告知三件事：
1. **在哪里看** — 限定章节范围而非全文
2. **看什么** — 用业务语言（如"注册资本"）而非系统拼音缩写
3. **怎么判** — 将 SOP 写成可执行判断条件

选型教训：Qwen3-32B 需 530 条规则、4300 行代码，三人离职；换 Qwen3-235B（4×H800，约 60 万一次性投入）后规则砍半，准确率 +45pp。结论：小模型省下的算力钱远不够覆盖人力成本。

### [[context-engineering|上下文工程]]

Prompt 从 24K token 压缩到 3K——核心做法是 180 个财务指标按需拼入，章节目录与表头信息动态使用。最难的不是模型推理，而是让模型在恰当时机看到恰当信息。

模型能力边界：擅长语义理解、意图识别、非结构化字段抽取、改写摘要、分类打标；不擅长高精度数值计算、跨段落勾稽比对、长链条多步推理、实时高并发零容错。

## Agent 工程

金融 Agent 需操作业务系统：读文件、调接口、写结果、必要时提问人。OpenClaw 暴露四短板：[[financial-agent-permission|权限边界模糊]]、审计不足、插件无管控、幻觉无兜底。

三件事须同时成立：
- 模型侧：任务拆解/规划/反思 + 长上下文 + Function Call 稳定性
- 工具侧：[[agent-skill-atomization|业务能力 Skill 原子化]] + [[mcp-protocol|MCP 协议]]接入
- 资源侧：[[aidb|AIDB]] 文档结构化、知识分片、接口描述业务化

每个 Skill 需明确物料、数据来源、权限级别（只读/只调代码/写需人工确认）。接口描述改造示例："基金分红历史信息" → "【查询】基金分红【过去指定时间】范围内的分红记录"。

## 核心洞见

1. **不卷织布速，卷机器驾驭力** — 竞争力在于能指挥多少个 AI Agent
2. **交付乐高式 Skills** — 拼好的乐高小车而非零碎积木
3. **工程师转身审核员** — 价值转向定义标准、审核结果、设计约束
4. **弃大脑之争，筑神经之基** — 不训练大模型，专注数据底座、接口标准、知识体系

## 来源

[原始存档](raw/articles/financial-llm-practice-2026.md)