SidneyZhang/myWiki

Files

Sidney Zhang e96b955fda

20260601

2026-06-01 10:46:01 +08:00

1.5 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Synthetic Data QA Generation (合成数据Q&A生成)

2026-05-29

2026-05-29

concept

synthetic-data

data-engineering

pretraining

qa-generation

https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw

Synthetic Data QA Generation (合成数据Q&A生成)

Synthetic Data QA Generation 是 ultradata L3 层级的关键加工方法：利用 LLM 将"可读但不可学"的叙述性网页文本转化为"提问-思考-回答"的结构化格式，使其成为"好学数据"。

核心转化

可读网页文本（叙述性、平铺直叙）
        ↓ 大规模 Q&A 生成 + 多风格改写
好学训练数据（结构化对话、多轮讨论、解释性问答）

为什么需要

网页文本缺乏明确的问题引导
缺乏逻辑推理链
缺乏知识浓缩
→ 模型"能看懂"但"学不会推理"

在 Ultra-FineWeb-L3 中的应用

基座：L2 精筛网页（高质量但仍是叙述性）
工具：MiniCPM4 + Qwen3
方法：对每个网页生成多风格 Q&A（解释型、对话型、多轮讨论型）
产出：600B Tokens（中文>200B）

通用性

此方法不仅适用于网页数据——数学、代码、知识领域均可应用，是 data-hierarchical-governance 的通用范式。

相关

ultradata — UltraData 系统
data-hierarchical-governance — 分级治理框架
ultradata-l3-open-source-2026 — 原始文章