20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/articles/qifu-llm-finance-practice.md
+++ b/articles/qifu-llm-finance-practice.md
@@ -0,0 +1,83 @@
+---
+title: "金融行业大模型落地实践：从知识工程到后训练部署"
+created: 2026-06-14
+updated: 2026-06-14
+type: article
+tags: [finance, llm-deployment, knowledge-engineering, post-training, agent]
+sources: [raw/articles/qifu-llm-finance-practice-2026.md]
+confidence: high
+---
+
+# 金融行业大模型落地实践
+
+> 奇富科技 DeepBank 王元在 2026 DA 上海站的分享 — DataFun 出品
+
+**核心主张:** 在专业领域，"通用大模型 + 高质量知识工程"的路径比盲目预训练垂类大模型更具商业价值。
+
+## 冰山难题：三重落地阻碍
+
+金融行业面临 LLM 落地的独特困境：
+
+1. **[[zero-data-cold-start|零数据困境]]** — 输入 X 和标签 Y 都不存在，连监督微调都无法启动
+2. **评估盲区** — 生成式输出的营销策略推荐缺乏标准答案
+3. **算力与合规壁垒** — 必须本地化部署，受限硬件预算和延时要求
+
+## 知识工程
+
+### REER 逆向知识提炼
+
+如何从仅有的 QA 对中提取可复用的知识？借鉴字节跳动的 REER 算法，[[reer-reverse-knowledge-extraction|四步流程]]：
+1. 大模型逆向分析 X→Y 关系，生成推理轨迹
+2. 剥离"内心独白"，提取通用话术逻辑 → SUM
+3. 按业务分类聚合 → 行动手册
+4. 迭代优化：Perplexity 下降 + 端到端坐席回复相似度验证
+
+### 多维合成数据
+
+[[multi-dimensional-synthetic-data|三维度构建训练数据多样性]]：
+- 企业客户多样性（行业资产、贸易特征、资金状况）
+- 录音场景多样性（噪音层级、纯闲聊、对抗负样本）
+- 录制人多样性（谨慎新手 vs 老练资深经理）
+
+## 后训练策略
+
+### 成本博弈
+
+| 方案 | 成本 | 适用场景 |
+|------|------|---------|
+| SFT 微调 | 低 | 结构化任务、指令遵循 |
+| [[post-hoc-reasoning-rl|后置推理 RL]] | 中 | 追求可解释性，无需拒绝采样 |
+| [[pre-hoc-reasoning-rl|前置推理 RL]] | 高 | 正统 RL，需 Dense 模型 |
+
+### [[moe-lora-toolchain-conflict|MOE + LoRA 工具链冲突]]
+
+VeRL 框架不支持 MOE 模型的 RL+LoRA 后训练，部分场景被迫退回全参微调。
+
+### [[automatic-prompt-optimization|APO 自动提示工程]]
+
+- System prompt 不宜过长，User prompt 约束力更强
+- Batch 处理更新，APO 本质是蒙特卡洛过程
+- Trace 可优化函数、提示词、工具描述
+- 验证集维护帕累托前沿
+
+## 推理与评估
+
+### [[emotional-value-evaluation|情绪价值评估]]
+
+在金融科技项目中，"情绪价值"往往先于业务效果被感知。引入心理学方法构建评估器：先提供"看着像"的情绪价值，再追求成功率。
+
+### 推理加速
+
+MOE 架构在吞吐量上有明显优势。任务卡数多于模型数时，多个 Int8 量化 Merge 模型收益可能高于 1 个基模挂多个 LoRA。
+
+## 相关概念
+
+- [[reer-reverse-knowledge-extraction|REER 逆向知识提炼]] — 从 QA 对中反向提取业务手册
+- [[multi-dimensional-synthetic-data|多维合成数据]] — 零数据场景的训练数据构建
+- [[post-hoc-reasoning-rl|后置推理 RL]] — 性价比更高的推理方案
+- [[pre-hoc-reasoning-rl|前置推理 RL]] — 正统但昂贵的 RL 路径
+- [[automatic-prompt-optimization|APO 自动提示工程]] — 高质量 Base Prompt 基线生成
+- [[emotional-value-evaluation|情绪价值评估]] — LLM 在业务中的主观质量度量
+- [[moe-lora-toolchain-conflict|MOE + LoRA 工具链冲突]] — 后训练的现实阻碍
+- [[zero-data-cold-start|零数据冷启动]] — X 和 Y 都缺失的极端场景
+- [[vertical-llm-knowledge-engineering|垂域 LLM 知识工程]] — 通用模型 + 领域知识的落地范式