Files
myWiki/articles/qifu-llm-finance-practice.md

84 lines
3.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "金融行业大模型落地实践:从知识工程到后训练部署"
created: 2026-06-14
updated: 2026-06-14
type: article
tags: [finance, llm-deployment, knowledge-engineering, post-training, agent]
sources: [raw/articles/qifu-llm-finance-practice-2026.md]
confidence: high
---
# 金融行业大模型落地实践
> 奇富科技 DeepBank 王元在 2026 DA 上海站的分享 — DataFun 出品
**核心主张:** 在专业领域,"通用大模型 + 高质量知识工程"的路径比盲目预训练垂类大模型更具商业价值。
## 冰山难题:三重落地阻碍
金融行业面临 LLM 落地的独特困境:
1. **[[zero-data-cold-start|零数据困境]]** — 输入 X 和标签 Y 都不存在,连监督微调都无法启动
2. **评估盲区** — 生成式输出的营销策略推荐缺乏标准答案
3. **算力与合规壁垒** — 必须本地化部署,受限硬件预算和延时要求
## 知识工程
### REER 逆向知识提炼
如何从仅有的 QA 对中提取可复用的知识?借鉴字节跳动的 REER 算法,[[reer-reverse-knowledge-extraction|四步流程]]
1. 大模型逆向分析 X→Y 关系,生成推理轨迹
2. 剥离"内心独白",提取通用话术逻辑 → SUM
3. 按业务分类聚合 → 行动手册
4. 迭代优化Perplexity 下降 + 端到端坐席回复相似度验证
### 多维合成数据
[[multi-dimensional-synthetic-data|三维度构建训练数据多样性]]
- 企业客户多样性(行业资产、贸易特征、资金状况)
- 录音场景多样性(噪音层级、纯闲聊、对抗负样本)
- 录制人多样性(谨慎新手 vs 老练资深经理)
## 后训练策略
### 成本博弈
| 方案 | 成本 | 适用场景 |
|------|------|---------|
| SFT 微调 | 低 | 结构化任务、指令遵循 |
| [[post-hoc-reasoning-rl|后置推理 RL]] | 中 | 追求可解释性,无需拒绝采样 |
| [[pre-hoc-reasoning-rl|前置推理 RL]] | 高 | 正统 RL需 Dense 模型 |
### [[moe-lora-toolchain-conflict|MOE + LoRA 工具链冲突]]
VeRL 框架不支持 MOE 模型的 RL+LoRA 后训练,部分场景被迫退回全参微调。
### [[automatic-prompt-optimization|APO 自动提示工程]]
- System prompt 不宜过长User prompt 约束力更强
- Batch 处理更新APO 本质是蒙特卡洛过程
- Trace 可优化函数、提示词、工具描述
- 验证集维护帕累托前沿
## 推理与评估
### [[emotional-value-evaluation|情绪价值评估]]
在金融科技项目中,"情绪价值"往往先于业务效果被感知。引入心理学方法构建评估器:先提供"看着像"的情绪价值,再追求成功率。
### 推理加速
MOE 架构在吞吐量上有明显优势。任务卡数多于模型数时,多个 Int8 量化 Merge 模型收益可能高于 1 个基模挂多个 LoRA。
## 相关概念
- [[reer-reverse-knowledge-extraction|REER 逆向知识提炼]] — 从 QA 对中反向提取业务手册
- [[multi-dimensional-synthetic-data|多维合成数据]] — 零数据场景的训练数据构建
- [[post-hoc-reasoning-rl|后置推理 RL]] — 性价比更高的推理方案
- [[pre-hoc-reasoning-rl|前置推理 RL]] — 正统但昂贵的 RL 路径
- [[automatic-prompt-optimization|APO 自动提示工程]] — 高质量 Base Prompt 基线生成
- [[emotional-value-evaluation|情绪价值评估]] — LLM 在业务中的主观质量度量
- [[moe-lora-toolchain-conflict|MOE + LoRA 工具链冲突]] — 后训练的现实阻碍
- [[zero-data-cold-start|零数据冷启动]] — X 和 Y 都缺失的极端场景
- [[vertical-llm-knowledge-engineering|垂域 LLM 知识工程]] — 通用模型 + 领域知识的落地范式