--- title: "后置推理 RL (Post-Hoc Reasoning RL)" created: 2026-06-14 updated: 2026-06-14 type: concept tags: [rl, post-training, reasoning, cost-efficiency] sources: [raw/articles/qifu-llm-finance-practice-2026.md] --- # 后置推理 RL (Post-Hoc Reasoning RL) 奇富科技王元提出的**中等成本后训练方案**:在模型生成最终答案后再生成推理过程,而非在生成答案前先生成推理。 ## 与前置推理 RL 的对比 | 维度 | 后置推理 RL | 前置推理 RL | |------|-----------|-----------| | 推理时序 | 答案 → 理由 | 理由 → 答案 | | 成本 | 中等 | 高 | | 训练复杂度 | 低(可利用 SFT 流水线) | 高(需拒绝采样 reasoning) | | 工具链兼容性 | 好 | 受限(MOE 模型 VeRL 不支持) | | 可解释性 | 有(核心需求满足) | 有 | | 绝对准确率 | 略低于前置 | 微弱优势 | ## 适用场景 在产品推荐等需要给出"推荐理由"的任务中,业务侧追求**可解释性**。后置推理 RL 在满足可解释性需求的同时: - 训练成本显著低于前置推理 RL - 可利用现有 SFT 工具链,无需拒绝采样 - 适合**预算有限但需要推理能力**的场景 ## 成本博弈框架 奇富科技提出的三阶梯成本框架: 1. **SFT 微调**(低成本)— 结构化任务、指令遵循 2. **后置推理 RL**(中等成本)— 需要可解释性但预算有限 3. **前置推理 RL**(高成本)— 正统 RL,需要 Dense 模型 ## 参考 - [[qifu-llm-finance-practice|奇富科技金融 LLM 实践]] — 来源分享 - [[pre-hoc-reasoning-rl|前置推理 RL]] — 对比方案 - [[moe-lora-toolchain-conflict|MOE + LoRA 冲突]] — 限制前置推理 RL 的现实因素