1.5 KiB
1.5 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| Synthetic Data QA Generation (合成数据Q&A生成) | 2026-05-29 | 2026-05-29 | concept |
|
|
Synthetic Data QA Generation (合成数据Q&A生成)
Synthetic Data QA Generation 是 ultradata L3 层级的关键加工方法:利用 LLM 将"可读但不可学"的叙述性网页文本转化为"提问-思考-回答"的结构化格式,使其成为"好学数据"。
核心转化
可读网页文本(叙述性、平铺直叙)
↓ 大规模 Q&A 生成 + 多风格改写
好学训练数据(结构化对话、多轮讨论、解释性问答)
为什么需要
- 网页文本缺乏明确的问题引导
- 缺乏逻辑推理链
- 缺乏知识浓缩
- → 模型"能看懂"但"学不会推理"
在 Ultra-FineWeb-L3 中的应用
- 基座:L2 精筛网页(高质量但仍是叙述性)
- 工具:MiniCPM4 + Qwen3
- 方法:对每个网页生成多风格 Q&A(解释型、对话型、多轮讨论型)
- 产出:600B Tokens(中文>200B)
通用性
此方法不仅适用于网页数据——数学、代码、知识领域均可应用,是 data-hierarchical-governance 的通用范式。
相关
- ultradata — UltraData 系统
- data-hierarchical-governance — 分级治理框架
- ultradata-l3-open-source-2026 — 原始文章