20260601
This commit is contained in:
36
concepts/deep-thinking-sft.md
Normal file
36
concepts/deep-thinking-sft.md
Normal file
@@ -0,0 +1,36 @@
|
||||
---
|
||||
title: "Deep-Thinking SFT (深思考SFT数据)"
|
||||
created: 2026-05-29
|
||||
updated: 2026-05-29
|
||||
type: concept
|
||||
tags: ["sft", "chain-of-thought", "reasoning", "data-engineering"]
|
||||
sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"]
|
||||
---
|
||||
|
||||
# Deep-Thinking SFT (深思考SFT数据)
|
||||
|
||||
**Deep-Thinking SFT** 是 [[ultradata|UltraData-SFT-2605]] 的关键特征:SFT 数据中同时包含带有完整思维链/推理过程标注的"深思考"样本和直接问答的"非思考"样本,使模型同时发展逐步推理和高效回答的能力。
|
||||
|
||||
## 两类样本
|
||||
|
||||
| 类型 | 特征 | 训练作用 |
|
||||
|------|------|------|
|
||||
| **深思考** | 完整思维链、推理步骤、自我纠错 | 培养逐步推理、自纠错能力 |
|
||||
| **非思考** | 直接问答对 | 保持回答效率 |
|
||||
|
||||
## 与传统 SFT 的区别
|
||||
|
||||
传统 SFT 数据多为直接问答对,缺乏过程性推理标注。Deep-Thinking SFT 弥补了这一空白,使模型在微调阶段就能学会**如何思考**而非仅仅**回答什么**。
|
||||
|
||||
## UltraData-SFT-2605 的特色
|
||||
|
||||
- 覆盖数学、代码、知识、指令遵循等多领域
|
||||
- 千万级规模
|
||||
- 全流程质量治理透明化(Query筛选→Answer校验→评测去污)
|
||||
- 杜绝训练/测试集重叠
|
||||
|
||||
## 相关
|
||||
|
||||
- [[ultradata]] — UltraData 系统
|
||||
- [[data-hierarchical-governance]] — L3 层级定位
|
||||
- [[ultradata-l3-open-source-2026]] — 原始文章
|
||||
Reference in New Issue
Block a user