Files
myWiki/concepts/zero-data-cold-start.md

48 lines
1.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "零数据冷启动 (Zero-Data Cold Start)"
created: 2026-06-14
updated: 2026-06-14
type: concept
tags: [data-scarcity, cold-start, llm-deployment, finance]
sources: [raw/articles/qifu-llm-finance-practice-2026.md]
---
# 零数据冷启动 (Zero-Data Cold Start)
奇富科技王元描述的金融 LLM 落地的**极端数据困境**:不仅没有标注,连输入 X 都没有——XY 全部缺失,连传统的监督微调都无法启动。
## 典型案例
银行营销业务的商机挖掘场景:
- 需要提取约 100 多类标签和商机软信息
- 业务流程变更前没有历史录音
- 没有商机标签的 Ground Truth
- 意味着输入 X 和标签 Y 都不存在
## 与大模型蒸馏的叠加困难
即使人工造少量测试数据:
- 用主流大模型Gemini, MiniMax 2.5/2.7)测试标签 F1 仅 70%+
- 无法用大模型做传统蒸馏提升小模型
- 只能从基模做 LoRA 后训练,依赖比测试数据多一个数量级的训练数据
## 解决方案
- [[multi-dimensional-synthetic-data|多维合成数据]] — 通过三维度 Prompt 多样性生成训练数据
- [[reer-reverse-knowledge-extraction|REER 逆向知识提炼]] — 从 QA 对中反向提取知识
## 与常规冷启动的区别
| 维度 | 常规冷启动 | 零数据冷启动 |
|------|----------|------------|
| 数据存在性 | X 存在Y 缺失 | X 和 Y 都缺失 |
| 启动方式 | 无监督/半监督/主动学习 | 全合成数据 |
| 验证难度 | 可人工标注少量验证 | 验证集也需要构造 |
| 典型领域 | 推荐系统、搜索 | 新业务流程、合规受限 |
## 参考
- [[qifu-llm-finance-practice|奇富科技金融 LLM 实践]] — 来源分享
- [[multi-dimensional-synthetic-data|多维合成数据]] — 解决方案
- [[reer-reverse-knowledge-extraction|REER 逆向知识提炼]] — 相关知识工程方法