Files
myWiki/concepts/post-hoc-reasoning-rl.md

44 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "后置推理 RL (Post-Hoc Reasoning RL)"
created: 2026-06-14
updated: 2026-06-14
type: concept
tags: [rl, post-training, reasoning, cost-efficiency]
sources: [raw/articles/qifu-llm-finance-practice-2026.md]
---
# 后置推理 RL (Post-Hoc Reasoning RL)
奇富科技王元提出的**中等成本后训练方案**:在模型生成最终答案后再生成推理过程,而非在生成答案前先生成推理。
## 与前置推理 RL 的对比
| 维度 | 后置推理 RL | 前置推理 RL |
|------|-----------|-----------|
| 推理时序 | 答案 → 理由 | 理由 → 答案 |
| 成本 | 中等 | 高 |
| 训练复杂度 | 低(可利用 SFT 流水线) | 高(需拒绝采样 reasoning |
| 工具链兼容性 | 好 | 受限MOE 模型 VeRL 不支持) |
| 可解释性 | 有(核心需求满足) | 有 |
| 绝对准确率 | 略低于前置 | 微弱优势 |
## 适用场景
在产品推荐等需要给出"推荐理由"的任务中,业务侧追求**可解释性**。后置推理 RL 在满足可解释性需求的同时:
- 训练成本显著低于前置推理 RL
- 可利用现有 SFT 工具链,无需拒绝采样
- 适合**预算有限但需要推理能力**的场景
## 成本博弈框架
奇富科技提出的三阶梯成本框架:
1. **SFT 微调**(低成本)— 结构化任务、指令遵循
2. **后置推理 RL**(中等成本)— 需要可解释性但预算有限
3. **前置推理 RL**(高成本)— 正统 RL需要 Dense 模型
## 参考
- [[qifu-llm-finance-practice|奇富科技金融 LLM 实践]] — 来源分享
- [[pre-hoc-reasoning-rl|前置推理 RL]] — 对比方案
- [[moe-lora-toolchain-conflict|MOE + LoRA 冲突]] — 限制前置推理 RL 的现实因素