3.6 KiB
3.6 KiB
title, created, updated, type, tags, sources, confidence
| title | created | updated | type | tags | sources | confidence | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 金融行业大模型落地实践:从知识工程到后训练部署 | 2026-06-14 | 2026-06-14 | article |
|
|
high |
金融行业大模型落地实践
奇富科技 DeepBank 王元在 2026 DA 上海站的分享 — DataFun 出品
核心主张: 在专业领域,"通用大模型 + 高质量知识工程"的路径比盲目预训练垂类大模型更具商业价值。
冰山难题:三重落地阻碍
金融行业面临 LLM 落地的独特困境:
- zero-data-cold-start — 输入 X 和标签 Y 都不存在,连监督微调都无法启动
- 评估盲区 — 生成式输出的营销策略推荐缺乏标准答案
- 算力与合规壁垒 — 必须本地化部署,受限硬件预算和延时要求
知识工程
REER 逆向知识提炼
如何从仅有的 QA 对中提取可复用的知识?借鉴字节跳动的 REER 算法,reer-reverse-knowledge-extraction:
- 大模型逆向分析 X→Y 关系,生成推理轨迹
- 剥离"内心独白",提取通用话术逻辑 → SUM
- 按业务分类聚合 → 行动手册
- 迭代优化:Perplexity 下降 + 端到端坐席回复相似度验证
多维合成数据
multi-dimensional-synthetic-data:
- 企业客户多样性(行业资产、贸易特征、资金状况)
- 录音场景多样性(噪音层级、纯闲聊、对抗负样本)
- 录制人多样性(谨慎新手 vs 老练资深经理)
后训练策略
成本博弈
| 方案 | 成本 | 适用场景 |
|---|---|---|
| SFT 微调 | 低 | 结构化任务、指令遵循 |
| [[post-hoc-reasoning-rl | 后置推理 RL]] | 中 |
| [[pre-hoc-reasoning-rl | 前置推理 RL]] | 高 |
moe-lora-toolchain-conflict
VeRL 框架不支持 MOE 模型的 RL+LoRA 后训练,部分场景被迫退回全参微调。
automatic-prompt-optimization
- System prompt 不宜过长,User prompt 约束力更强
- Batch 处理更新,APO 本质是蒙特卡洛过程
- Trace 可优化函数、提示词、工具描述
- 验证集维护帕累托前沿
推理与评估
emotional-value-evaluation
在金融科技项目中,"情绪价值"往往先于业务效果被感知。引入心理学方法构建评估器:先提供"看着像"的情绪价值,再追求成功率。
推理加速
MOE 架构在吞吐量上有明显优势。任务卡数多于模型数时,多个 Int8 量化 Merge 模型收益可能高于 1 个基模挂多个 LoRA。
相关概念
- reer-reverse-knowledge-extraction — 从 QA 对中反向提取业务手册
- multi-dimensional-synthetic-data — 零数据场景的训练数据构建
- post-hoc-reasoning-rl — 性价比更高的推理方案
- pre-hoc-reasoning-rl — 正统但昂贵的 RL 路径
- automatic-prompt-optimization — 高质量 Base Prompt 基线生成
- emotional-value-evaluation — LLM 在业务中的主观质量度量
- moe-lora-toolchain-conflict — 后训练的现实阻碍
- zero-data-cold-start — X 和 Y 都缺失的极端场景
- vertical-llm-knowledge-engineering — 通用模型 + 领域知识的落地范式