Files
myWiki/concepts/multi-dimensional-synthetic-data.md

2.0 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
多维合成数据 (Multi-Dimensional Synthetic Data) 2026-06-14 2026-06-14 concept
synthetic-data
data-augmentation
llm-training
finance
raw/articles/qifu-llm-finance-practice-2026.md

多维合成数据 (Multi-Dimensional Synthetic Data)

奇富科技王元提出的零数据场景下的训练数据构建策略,通过三维度 Prompt 多样性生成丰富多样的合成数据。

背景

在银行营销业务的商机挖掘场景中,不仅没有标注,连输入 X 都没有——既没有历史录音也没有商机标签 Ground Truth。用大模型直接测试标签 F1 值仅 70%+,无法做传统蒸馏。只能从基模做 LoRA 后训练,但训练数据需要比测试数据多一个数量级。

三维度策略

构建数据多样性的核心是构建生成数据流水线的 Prompt 多样性

维度一:企业客户多样性

模拟目标客户画像:

  • 行业资产(如轻资产企业,切断不动产字段)
  • 贸易特征(纯内贸切断外汇字段)
  • 资金状况(急缺资金强制绑定急融标签)

维度二:录音场景多样性

模拟物理环境和噪音层级:

  • 设备操作噪音
  • 纯闲聊场景
  • 对抗性极强的负样本(如讨论个人房贷而非企业融资)

维度三:语音录制人多样性

模拟客户经理的不同行为特征:

  • 谨慎的新手:线性逻辑、自我修正、口吃
  • 老练的资深经理:结论先行、迅速切入

关键洞察

  • 零数据场景下,生成数据的质量取决于 Prompt 多样性的维度设计,而非简单的数量堆积
  • 多维采样和提示词流水线设计需要覆盖对抗性负样本行为边界
  • 这是一种"用 Prompt 工程来工程化数据分布"的策略——通过 Prompt 空间的结构化采样来逼近真实分布

参考