Files
myWiki/concepts/multi-dimensional-synthetic-data.md

49 lines
2.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "多维合成数据 (Multi-Dimensional Synthetic Data)"
created: 2026-06-14
updated: 2026-06-14
type: concept
tags: [synthetic-data, data-augmentation, llm-training, finance]
sources: [raw/articles/qifu-llm-finance-practice-2026.md]
---
# 多维合成数据 (Multi-Dimensional Synthetic Data)
奇富科技王元提出的**零数据场景下的训练数据构建策略**,通过三维度 Prompt 多样性生成丰富多样的合成数据。
## 背景
在银行营销业务的商机挖掘场景中,不仅没有标注,连输入 X 都没有——既没有历史录音也没有商机标签 Ground Truth。用大模型直接测试标签 F1 值仅 70%+,无法做传统蒸馏。只能从基模做 LoRA 后训练,但训练数据需要比测试数据多一个数量级。
## 三维度策略
构建数据多样性的核心是构建**生成数据流水线的 Prompt 多样性**
### 维度一:企业客户多样性
模拟目标客户画像:
- 行业资产(如轻资产企业,切断不动产字段)
- 贸易特征(纯内贸切断外汇字段)
- 资金状况(急缺资金强制绑定急融标签)
### 维度二:录音场景多样性
模拟物理环境和噪音层级:
- 设备操作噪音
- 纯闲聊场景
- 对抗性极强的负样本(如讨论个人房贷而非企业融资)
### 维度三:语音录制人多样性
模拟客户经理的不同行为特征:
- **谨慎的新手**:线性逻辑、自我修正、口吃
- **老练的资深经理**:结论先行、迅速切入
## 关键洞察
- 零数据场景下,生成数据的质量取决于 **Prompt 多样性的维度设计**,而非简单的数量堆积
- 多维采样和提示词流水线设计需要覆盖**对抗性负样本**和**行为边界**
- 这是一种"用 Prompt 工程来工程化数据分布"的策略——通过 Prompt 空间的结构化采样来逼近真实分布
## 参考
- [[qifu-llm-finance-practice|奇富科技金融 LLM 实践]] — 来源分享
- [[zero-data-cold-start|零数据冷启动]] — 该方法要解决的核心问题