Files
myWiki/concepts/deep-thinking-sft.md
2026-06-01 10:46:01 +08:00

37 lines
1.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Deep-Thinking SFT (深思考SFT数据)"
created: 2026-05-29
updated: 2026-05-29
type: concept
tags: ["sft", "chain-of-thought", "reasoning", "data-engineering"]
sources: ["https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw"]
---
# Deep-Thinking SFT (深思考SFT数据)
**Deep-Thinking SFT** 是 [[ultradata|UltraData-SFT-2605]] 的关键特征SFT 数据中同时包含带有完整思维链/推理过程标注的"深思考"样本和直接问答的"非思考"样本,使模型同时发展逐步推理和高效回答的能力。
## 两类样本
| 类型 | 特征 | 训练作用 |
|------|------|------|
| **深思考** | 完整思维链、推理步骤、自我纠错 | 培养逐步推理、自纠错能力 |
| **非思考** | 直接问答对 | 保持回答效率 |
## 与传统 SFT 的区别
传统 SFT 数据多为直接问答对缺乏过程性推理标注。Deep-Thinking SFT 弥补了这一空白,使模型在微调阶段就能学会**如何思考**而非仅仅**回答什么**。
## UltraData-SFT-2605 的特色
- 覆盖数学、代码、知识、指令遵循等多领域
- 千万级规模
- 全流程质量治理透明化Query筛选→Answer校验→评测去污
- 杜绝训练/测试集重叠
## 相关
- [[ultradata]] — UltraData 系统
- [[data-hierarchical-governance]] — L3 层级定位
- [[ultradata-l3-open-source-2026]] — 原始文章