--- title: "零数据冷启动 (Zero-Data Cold Start)" created: 2026-06-14 updated: 2026-06-14 type: concept tags: [data-scarcity, cold-start, llm-deployment, finance] sources: [raw/articles/qifu-llm-finance-practice-2026.md] --- # 零数据冷启动 (Zero-Data Cold Start) 奇富科技王元描述的金融 LLM 落地的**极端数据困境**:不仅没有标注,连输入 X 都没有——XY 全部缺失,连传统的监督微调都无法启动。 ## 典型案例 银行营销业务的商机挖掘场景: - 需要提取约 100 多类标签和商机软信息 - 业务流程变更前没有历史录音 - 没有商机标签的 Ground Truth - 意味着输入 X 和标签 Y 都不存在 ## 与大模型蒸馏的叠加困难 即使人工造少量测试数据: - 用主流大模型(Gemini, MiniMax 2.5/2.7)测试标签 F1 仅 70%+ - 无法用大模型做传统蒸馏提升小模型 - 只能从基模做 LoRA 后训练,依赖比测试数据多一个数量级的训练数据 ## 解决方案 - [[multi-dimensional-synthetic-data|多维合成数据]] — 通过三维度 Prompt 多样性生成训练数据 - [[reer-reverse-knowledge-extraction|REER 逆向知识提炼]] — 从 QA 对中反向提取知识 ## 与常规冷启动的区别 | 维度 | 常规冷启动 | 零数据冷启动 | |------|----------|------------| | 数据存在性 | X 存在,Y 缺失 | X 和 Y 都缺失 | | 启动方式 | 无监督/半监督/主动学习 | 全合成数据 | | 验证难度 | 可人工标注少量验证 | 验证集也需要构造 | | 典型领域 | 推荐系统、搜索 | 新业务流程、合规受限 | ## 参考 - [[qifu-llm-finance-practice|奇富科技金融 LLM 实践]] — 来源分享 - [[multi-dimensional-synthetic-data|多维合成数据]] — 解决方案 - [[reer-reverse-knowledge-extraction|REER 逆向知识提炼]] — 相关知识工程方法