Files
myWiki/concepts/synthetic-data-qa-generation.md
2026-06-01 10:46:01 +08:00

45 lines
1.5 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Synthetic Data QA Generation (合成数据Q&A生成)"
created: 2026-05-29
updated: 2026-05-29
type: concept
tags: ["synthetic-data", "data-engineering", "pretraining", "qa-generation"]
sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"]
---
# Synthetic Data QA Generation (合成数据Q&A生成)
**Synthetic Data QA Generation** 是 [[ultradata|UltraData]] L3 层级的关键加工方法:利用 LLM 将"可读但不可学"的叙述性网页文本转化为"提问-思考-回答"的结构化格式,使其成为"好学数据"。
## 核心转化
```
可读网页文本(叙述性、平铺直叙)
↓ 大规模 Q&A 生成 + 多风格改写
好学训练数据(结构化对话、多轮讨论、解释性问答)
```
## 为什么需要
- 网页文本缺乏**明确的问题引导**
- 缺乏**逻辑推理链**
- 缺乏**知识浓缩**
- → 模型"能看懂"但"学不会推理"
## 在 Ultra-FineWeb-L3 中的应用
- 基座L2 精筛网页(高质量但仍是叙述性)
- 工具MiniCPM4 + Qwen3
- 方法:对每个网页生成多风格 Q&A解释型、对话型、多轮讨论型
- 产出600B Tokens中文>200B
## 通用性
此方法不仅适用于网页数据——数学、代码、知识领域均可应用,是 [[data-hierarchical-governance|L3 合成数据]] 的通用范式。
## 相关
- [[ultradata]] — UltraData 系统
- [[data-hierarchical-governance]] — 分级治理框架
- [[ultradata-l3-open-source-2026]] — 原始文章