44 lines
1.7 KiB
Markdown
44 lines
1.7 KiB
Markdown
---
|
||
title: "后置推理 RL (Post-Hoc Reasoning RL)"
|
||
created: 2026-06-14
|
||
updated: 2026-06-14
|
||
type: concept
|
||
tags: [rl, post-training, reasoning, cost-efficiency]
|
||
sources: [raw/articles/qifu-llm-finance-practice-2026.md]
|
||
---
|
||
|
||
# 后置推理 RL (Post-Hoc Reasoning RL)
|
||
|
||
奇富科技王元提出的**中等成本后训练方案**:在模型生成最终答案后再生成推理过程,而非在生成答案前先生成推理。
|
||
|
||
## 与前置推理 RL 的对比
|
||
|
||
| 维度 | 后置推理 RL | 前置推理 RL |
|
||
|------|-----------|-----------|
|
||
| 推理时序 | 答案 → 理由 | 理由 → 答案 |
|
||
| 成本 | 中等 | 高 |
|
||
| 训练复杂度 | 低(可利用 SFT 流水线) | 高(需拒绝采样 reasoning) |
|
||
| 工具链兼容性 | 好 | 受限(MOE 模型 VeRL 不支持) |
|
||
| 可解释性 | 有(核心需求满足) | 有 |
|
||
| 绝对准确率 | 略低于前置 | 微弱优势 |
|
||
|
||
## 适用场景
|
||
|
||
在产品推荐等需要给出"推荐理由"的任务中,业务侧追求**可解释性**。后置推理 RL 在满足可解释性需求的同时:
|
||
- 训练成本显著低于前置推理 RL
|
||
- 可利用现有 SFT 工具链,无需拒绝采样
|
||
- 适合**预算有限但需要推理能力**的场景
|
||
|
||
## 成本博弈框架
|
||
|
||
奇富科技提出的三阶梯成本框架:
|
||
1. **SFT 微调**(低成本)— 结构化任务、指令遵循
|
||
2. **后置推理 RL**(中等成本)— 需要可解释性但预算有限
|
||
3. **前置推理 RL**(高成本)— 正统 RL,需要 Dense 模型
|
||
|
||
## 参考
|
||
|
||
- [[qifu-llm-finance-practice|奇富科技金融 LLM 实践]] — 来源分享
|
||
- [[pre-hoc-reasoning-rl|前置推理 RL]] — 对比方案
|
||
- [[moe-lora-toolchain-conflict|MOE + LoRA 冲突]] — 限制前置推理 RL 的现实因素
|