Files
myWiki/concepts/deepseek-r1.md

814 B
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
DeepSeek-R1 2025-06-02 2025-06-02 concept
reasoning-model
llm
deepseek
placeholder

DeepSeek-R1

DeepSeek 发布的开源推理模型Guo et al., 2025通过强化学习激励推理能力在多个基准上达到领先水平。

核心特点

  • 基于 RL 的推理能力训练(非 SFT
  • 生成显式推理 tokenthinking tokens随后生成回复
  • 主要基于单轮推理数据训练

在多轮推理中的局限

goru-one-pass-to-reason-2025 指出DeepSeek-R1 遵循行业惯例——推理 token 在后续轮次中被丢弃,导致多轮微调效率低下(需 N 遍前向传播)。

相关