myWiki/concepts/post-hoc-reasoning-rl.md

---
title: "后置推理 RL (Post-Hoc Reasoning RL)"
created: 2026-06-14
updated: 2026-06-14
type: concept
tags: [rl, post-training, reasoning, cost-efficiency]
sources: [raw/articles/qifu-llm-finance-practice-2026.md]
---

# 后置推理 RL (Post-Hoc Reasoning RL)

奇富科技王元提出的**中等成本后训练方案**：在模型生成最终答案后再生成推理过程，而非在生成答案前先生成推理。

## 与前置推理 RL 的对比

| 维度 | 后置推理 RL | 前置推理 RL |
|------|-----------|-----------|
| 推理时序 | 答案 → 理由 | 理由 → 答案 |
| 成本 | 中等 | 高 |
| 训练复杂度 | 低（可利用 SFT 流水线） | 高（需拒绝采样 reasoning） |
| 工具链兼容性 | 好 | 受限（MOE 模型 VeRL 不支持） |
| 可解释性 | 有（核心需求满足） | 有 |
| 绝对准确率 | 略低于前置 | 微弱优势 |

## 适用场景

在产品推荐等需要给出"推荐理由"的任务中，业务侧追求**可解释性**。后置推理 RL 在满足可解释性需求的同时：
- 训练成本显著低于前置推理 RL
- 可利用现有 SFT 工具链，无需拒绝采样
- 适合**预算有限但需要推理能力**的场景

## 成本博弈框架

奇富科技提出的三阶梯成本框架：
1. **SFT 微调**（低成本）— 结构化任务、指令遵循
2. **后置推理 RL**（中等成本）— 需要可解释性但预算有限
3. **前置推理 RL**（高成本）— 正统 RL，需要 Dense 模型

## 参考

- [[qifu-llm-finance-practice|奇富科技金融 LLM 实践]] — 来源分享
- [[pre-hoc-reasoning-rl|前置推理 RL]] — 对比方案
- [[moe-lora-toolchain-conflict|MOE + LoRA 冲突]] — 限制前置推理 RL 的现实因素