20260601

2026-06-01 10:46:01 +08:00
parent 2faf4bb002
commit e96b955fda
221 changed files with 10219 additions and 332 deletions
--- a/concepts/synthetic-data-qa-generation.md
+++ b/concepts/synthetic-data-qa-generation.md
@@ -0,0 +1,44 @@
+---
+title: "Synthetic Data QA Generation (合成数据Q&A生成)"
+created: 2026-05-29
+updated: 2026-05-29
+type: concept
+tags: ["synthetic-data", "data-engineering", "pretraining", "qa-generation"]
+sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"]
+---
+
+# Synthetic Data QA Generation (合成数据Q&A生成)
+
+**Synthetic Data QA Generation** 是 [[ultradata|UltraData]] L3 层级的关键加工方法：利用 LLM 将"可读但不可学"的叙述性网页文本转化为"提问-思考-回答"的结构化格式，使其成为"好学数据"。
+
+## 核心转化
+
+```
+可读网页文本（叙述性、平铺直叙）
+        ↓ 大规模 Q&A 生成 + 多风格改写
+好学训练数据（结构化对话、多轮讨论、解释性问答）
+```
+
+## 为什么需要
+
+- 网页文本缺乏**明确的问题引导**
+- 缺乏**逻辑推理链**
+- 缺乏**知识浓缩**
+- → 模型"能看懂"但"学不会推理"
+
+## 在 Ultra-FineWeb-L3 中的应用
+
+- 基座：L2 精筛网页（高质量但仍是叙述性）
+- 工具：MiniCPM4 + Qwen3
+- 方法：对每个网页生成多风格 Q&A（解释型、对话型、多轮讨论型）
+- 产出：600B Tokens（中文>200B）
+
+## 通用性
+
+此方法不仅适用于网页数据——数学、代码、知识领域均可应用，是 [[data-hierarchical-governance|L3 合成数据]] 的通用范式。
+
+## 相关
+
+- [[ultradata]] — UltraData 系统
+- [[data-hierarchical-governance]] — 分级治理框架
+- [[ultradata-l3-open-source-2026]] — 原始文章