SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

3.6 KiB

Raw Blame History

title, created, updated, type, tags, sources, confidence

title

created

updated

type

tags

sources

confidence

金融行业大模型落地实践：从知识工程到后训练部署

2026-06-14

2026-06-14

article

finance

llm-deployment

knowledge-engineering

post-training

agent

raw/articles/qifu-llm-finance-practice-2026.md

high

金融行业大模型落地实践

奇富科技 DeepBank 王元在 2026 DA 上海站的分享 — DataFun 出品

核心主张: 在专业领域，"通用大模型 + 高质量知识工程"的路径比盲目预训练垂类大模型更具商业价值。

冰山难题：三重落地阻碍

金融行业面临 LLM 落地的独特困境：

zero-data-cold-start — 输入 X 和标签 Y 都不存在，连监督微调都无法启动
评估盲区 — 生成式输出的营销策略推荐缺乏标准答案
算力与合规壁垒 — 必须本地化部署，受限硬件预算和延时要求

知识工程

REER 逆向知识提炼

如何从仅有的 QA 对中提取可复用的知识？借鉴字节跳动的 REER 算法，reer-reverse-knowledge-extraction：

大模型逆向分析 X→Y 关系，生成推理轨迹
剥离"内心独白"，提取通用话术逻辑 → SUM
按业务分类聚合 → 行动手册
迭代优化：Perplexity 下降 + 端到端坐席回复相似度验证

多维合成数据

multi-dimensional-synthetic-data：

企业客户多样性（行业资产、贸易特征、资金状况）
录音场景多样性（噪音层级、纯闲聊、对抗负样本）
录制人多样性（谨慎新手 vs 老练资深经理）

后训练策略

成本博弈

方案	成本	适用场景
SFT 微调	低	结构化任务、指令遵循
[[post-hoc-reasoning-rl	后置推理 RL]]	中
[[pre-hoc-reasoning-rl	前置推理 RL]]	高

moe-lora-toolchain-conflict

VeRL 框架不支持 MOE 模型的 RL+LoRA 后训练，部分场景被迫退回全参微调。

automatic-prompt-optimization

System prompt 不宜过长，User prompt 约束力更强
Batch 处理更新，APO 本质是蒙特卡洛过程
Trace 可优化函数、提示词、工具描述
验证集维护帕累托前沿

推理与评估

emotional-value-evaluation

在金融科技项目中，"情绪价值"往往先于业务效果被感知。引入心理学方法构建评估器：先提供"看着像"的情绪价值，再追求成功率。

推理加速

MOE 架构在吞吐量上有明显优势。任务卡数多于模型数时，多个 Int8 量化 Merge 模型收益可能高于 1 个基模挂多个 LoRA。

相关概念

reer-reverse-knowledge-extraction — 从 QA 对中反向提取业务手册
multi-dimensional-synthetic-data — 零数据场景的训练数据构建
post-hoc-reasoning-rl — 性价比更高的推理方案
pre-hoc-reasoning-rl — 正统但昂贵的 RL 路径
automatic-prompt-optimization — 高质量 Base Prompt 基线生成
emotional-value-evaluation — LLM 在业务中的主观质量度量
moe-lora-toolchain-conflict — 后训练的现实阻碍
zero-data-cold-start — X 和 Y 都缺失的极端场景
vertical-llm-knowledge-engineering — 通用模型 + 领域知识的落地范式