20260601
This commit is contained in:
44
concepts/synthetic-data-qa-generation.md
Normal file
44
concepts/synthetic-data-qa-generation.md
Normal file
@@ -0,0 +1,44 @@
|
||||
---
|
||||
title: "Synthetic Data QA Generation (合成数据Q&A生成)"
|
||||
created: 2026-05-29
|
||||
updated: 2026-05-29
|
||||
type: concept
|
||||
tags: ["synthetic-data", "data-engineering", "pretraining", "qa-generation"]
|
||||
sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"]
|
||||
---
|
||||
|
||||
# Synthetic Data QA Generation (合成数据Q&A生成)
|
||||
|
||||
**Synthetic Data QA Generation** 是 [[ultradata|UltraData]] L3 层级的关键加工方法:利用 LLM 将"可读但不可学"的叙述性网页文本转化为"提问-思考-回答"的结构化格式,使其成为"好学数据"。
|
||||
|
||||
## 核心转化
|
||||
|
||||
```
|
||||
可读网页文本(叙述性、平铺直叙)
|
||||
↓ 大规模 Q&A 生成 + 多风格改写
|
||||
好学训练数据(结构化对话、多轮讨论、解释性问答)
|
||||
```
|
||||
|
||||
## 为什么需要
|
||||
|
||||
- 网页文本缺乏**明确的问题引导**
|
||||
- 缺乏**逻辑推理链**
|
||||
- 缺乏**知识浓缩**
|
||||
- → 模型"能看懂"但"学不会推理"
|
||||
|
||||
## 在 Ultra-FineWeb-L3 中的应用
|
||||
|
||||
- 基座:L2 精筛网页(高质量但仍是叙述性)
|
||||
- 工具:MiniCPM4 + Qwen3
|
||||
- 方法:对每个网页生成多风格 Q&A(解释型、对话型、多轮讨论型)
|
||||
- 产出:600B Tokens(中文>200B)
|
||||
|
||||
## 通用性
|
||||
|
||||
此方法不仅适用于网页数据——数学、代码、知识领域均可应用,是 [[data-hierarchical-governance|L3 合成数据]] 的通用范式。
|
||||
|
||||
## 相关
|
||||
|
||||
- [[ultradata]] — UltraData 系统
|
||||
- [[data-hierarchical-governance]] — 分级治理框架
|
||||
- [[ultradata-l3-open-source-2026]] — 原始文章
|
||||
Reference in New Issue
Block a user