--- title: "大推理模型 (Large Reasoning Models)" created: 2026-06-18 updated: 2026-06-18 type: concept tags: [reasoning, lrm, cot, r1] sources: - gan-thinking-based-non-thinking-2026 --- # 大推理模型 (Large Reasoning Models) LRM 是以长[[chain-of-thought|思维链]](CoT)为核心推理机制的先进语言模型,代表如 DeepSeek-R1(Guo et al., 2025)和 OpenAI o1(Jaech et al., 2024)。 ## 工作机制 给定 prompt `x = [query, ]`,LRM 生成: ``` y = [y_1, ..., y_τ, , y_{τ+2}, ..., y_m] ``` - `[y_1, ..., y_τ]`:思考(thinking)——探索、反思、自验证 - ``:思考结束标志 - `[y_{τ+2}, ..., y_m]`:最终 solution ## 性能来源 LRM 的卓越性能**几乎完全源于 thinking**——长 CoT 中的多步推理、自我纠错和验证过程。但这也意味: - 简单查询同样经历完整思考 - 大量"Wait... Let me check..." 类 token 无建设性 - 推理开销和延迟显著增加 ## Overthinking 与混合推理 LRM 的[[overthinking|过度思考]]问题催生了[[hybrid-reasoning-models|混合推理模型]]——让模型根据查询复杂度自主决定是否思考。 ## 关键特性(TNT 利用的) LRM 的 thinking mode 训练确保 `` 之后的 solution 部分**不含额外思考**——这使得 solution 长度可作为非思考模式自然输出长度的可靠估计。这是 TNT 的核心假设和设计基础。 ## 参考 - [[thinking-mode|思考模式]] - [[overthinking|过度思考]] - [[hybrid-reasoning-models|混合推理模型]] - [[gan-thinking-based-non-thinking-2026|TNT 论文]]