20260617:目前有914 页

This commit is contained in:
2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions

View File

@@ -0,0 +1,47 @@
---
title: "零数据冷启动 (Zero-Data Cold Start)"
created: 2026-06-14
updated: 2026-06-14
type: concept
tags: [data-scarcity, cold-start, llm-deployment, finance]
sources: [raw/articles/qifu-llm-finance-practice-2026.md]
---
# 零数据冷启动 (Zero-Data Cold Start)
奇富科技王元描述的金融 LLM 落地的**极端数据困境**:不仅没有标注,连输入 X 都没有——XY 全部缺失,连传统的监督微调都无法启动。
## 典型案例
银行营销业务的商机挖掘场景:
- 需要提取约 100 多类标签和商机软信息
- 业务流程变更前没有历史录音
- 没有商机标签的 Ground Truth
- 意味着输入 X 和标签 Y 都不存在
## 与大模型蒸馏的叠加困难
即使人工造少量测试数据:
- 用主流大模型Gemini, MiniMax 2.5/2.7)测试标签 F1 仅 70%+
- 无法用大模型做传统蒸馏提升小模型
- 只能从基模做 LoRA 后训练,依赖比测试数据多一个数量级的训练数据
## 解决方案
- [[multi-dimensional-synthetic-data|多维合成数据]] — 通过三维度 Prompt 多样性生成训练数据
- [[reer-reverse-knowledge-extraction|REER 逆向知识提炼]] — 从 QA 对中反向提取知识
## 与常规冷启动的区别
| 维度 | 常规冷启动 | 零数据冷启动 |
|------|----------|------------|
| 数据存在性 | X 存在Y 缺失 | X 和 Y 都缺失 |
| 启动方式 | 无监督/半监督/主动学习 | 全合成数据 |
| 验证难度 | 可人工标注少量验证 | 验证集也需要构造 |
| 典型领域 | 推荐系统、搜索 | 新业务流程、合规受限 |
## 参考
- [[qifu-llm-finance-practice|奇富科技金融 LLM 实践]] — 来源分享
- [[multi-dimensional-synthetic-data|多维合成数据]] — 解决方案
- [[reer-reverse-knowledge-extraction|REER 逆向知识提炼]] — 相关知识工程方法