Files
myWiki/concepts/deep-thinking-sft.md
2026-06-01 10:46:01 +08:00

1.4 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
Deep-Thinking SFT (深思考SFT数据) 2026-05-29 2026-05-29 concept
sft
chain-of-thought
reasoning
data-engineering
https://mp.weixin.qq.com/s/5jV2jYuXJloKX5IWCzrSpw

Deep-Thinking SFT (深思考SFT数据)

Deep-Thinking SFTultradata 的关键特征SFT 数据中同时包含带有完整思维链/推理过程标注的"深思考"样本和直接问答的"非思考"样本,使模型同时发展逐步推理和高效回答的能力。

两类样本

类型 特征 训练作用
深思考 完整思维链、推理步骤、自我纠错 培养逐步推理、自纠错能力
非思考 直接问答对 保持回答效率

与传统 SFT 的区别

传统 SFT 数据多为直接问答对缺乏过程性推理标注。Deep-Thinking SFT 弥补了这一空白,使模型在微调阶段就能学会如何思考而非仅仅回答什么

UltraData-SFT-2605 的特色

  • 覆盖数学、代码、知识、指令遵循等多领域
  • 千万级规模
  • 全流程质量治理透明化Query筛选→Answer校验→评测去污
  • 杜绝训练/测试集重叠

相关