--- title: "DeepSeek-R1" created: 2025-06-02 updated: 2025-06-02 type: concept tags: [reasoning-model, llm, deepseek, placeholder] sources: [] --- # DeepSeek-R1 > DeepSeek 发布的开源推理模型(Guo et al., 2025),通过强化学习激励推理能力,在多个基准上达到领先水平。 ## 核心特点 - 基于 RL 的推理能力训练(非 SFT) - 生成显式推理 token(thinking tokens),随后生成回复 - 主要基于单轮推理数据训练 ## 在多轮推理中的局限 [[goru-one-pass-to-reason-2025]] 指出,DeepSeek-R1 遵循行业惯例——推理 token 在后续轮次中被丢弃,导致多轮微调效率低下(需 N 遍前向传播)。 ## 相关 - [[goru-one-pass-to-reason-2025|One-Pass to Reason]] - [[multi-turn-reasoning]] - [[visibility-constraint]]