814 B
814 B
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||
|---|---|---|---|---|---|---|---|---|---|
| DeepSeek-R1 | 2025-06-02 | 2025-06-02 | concept |
|
DeepSeek-R1
DeepSeek 发布的开源推理模型(Guo et al., 2025),通过强化学习激励推理能力,在多个基准上达到领先水平。
核心特点
- 基于 RL 的推理能力训练(非 SFT)
- 生成显式推理 token(thinking tokens),随后生成回复
- 主要基于单轮推理数据训练
在多轮推理中的局限
goru-one-pass-to-reason-2025 指出,DeepSeek-R1 遵循行业惯例——推理 token 在后续轮次中被丢弃,导致多轮微调效率低下(需 N 遍前向传播)。