20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/multi-dimensional-synthetic-data.md
+++ b/concepts/multi-dimensional-synthetic-data.md
@@ -0,0 +1,48 @@
+---
+title: "多维合成数据 (Multi-Dimensional Synthetic Data)"
+created: 2026-06-14
+updated: 2026-06-14
+type: concept
+tags: [synthetic-data, data-augmentation, llm-training, finance]
+sources: [raw/articles/qifu-llm-finance-practice-2026.md]
+---
+
+# 多维合成数据 (Multi-Dimensional Synthetic Data)
+
+奇富科技王元提出的**零数据场景下的训练数据构建策略**，通过三维度 Prompt 多样性生成丰富多样的合成数据。
+
+## 背景
+
+在银行营销业务的商机挖掘场景中，不仅没有标注，连输入 X 都没有——既没有历史录音也没有商机标签 Ground Truth。用大模型直接测试标签 F1 值仅 70%+，无法做传统蒸馏。只能从基模做 LoRA 后训练，但训练数据需要比测试数据多一个数量级。
+
+## 三维度策略
+
+构建数据多样性的核心是构建**生成数据流水线的 Prompt 多样性**：
+
+### 维度一：企业客户多样性
+模拟目标客户画像：
+- 行业资产（如轻资产企业，切断不动产字段）
+- 贸易特征（纯内贸切断外汇字段）
+- 资金状况（急缺资金强制绑定急融标签）
+
+### 维度二：录音场景多样性
+模拟物理环境和噪音层级：
+- 设备操作噪音
+- 纯闲聊场景
+- 对抗性极强的负样本（如讨论个人房贷而非企业融资）
+
+### 维度三：语音录制人多样性
+模拟客户经理的不同行为特征：
+- **谨慎的新手**：线性逻辑、自我修正、口吃
+- **老练的资深经理**：结论先行、迅速切入
+
+## 关键洞察
+
+- 零数据场景下，生成数据的质量取决于 **Prompt 多样性的维度设计**，而非简单的数量堆积
+- 多维采样和提示词流水线设计需要覆盖**对抗性负样本**和**行为边界**
+- 这是一种"用 Prompt 工程来工程化数据分布"的策略——通过 Prompt 空间的结构化采样来逼近真实分布
+
+## 参考
+
+- [[qifu-llm-finance-practice|奇富科技金融 LLM 实践]] — 来源分享
+- [[zero-data-cold-start|零数据冷启动]] — 该方法要解决的核心问题