1.7 KiB
1.7 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 后置推理 RL (Post-Hoc Reasoning RL) | 2026-06-14 | 2026-06-14 | concept |
|
|
后置推理 RL (Post-Hoc Reasoning RL)
奇富科技王元提出的中等成本后训练方案:在模型生成最终答案后再生成推理过程,而非在生成答案前先生成推理。
与前置推理 RL 的对比
| 维度 | 后置推理 RL | 前置推理 RL |
|---|---|---|
| 推理时序 | 答案 → 理由 | 理由 → 答案 |
| 成本 | 中等 | 高 |
| 训练复杂度 | 低(可利用 SFT 流水线) | 高(需拒绝采样 reasoning) |
| 工具链兼容性 | 好 | 受限(MOE 模型 VeRL 不支持) |
| 可解释性 | 有(核心需求满足) | 有 |
| 绝对准确率 | 略低于前置 | 微弱优势 |
适用场景
在产品推荐等需要给出"推荐理由"的任务中,业务侧追求可解释性。后置推理 RL 在满足可解释性需求的同时:
- 训练成本显著低于前置推理 RL
- 可利用现有 SFT 工具链,无需拒绝采样
- 适合预算有限但需要推理能力的场景
成本博弈框架
奇富科技提出的三阶梯成本框架:
- SFT 微调(低成本)— 结构化任务、指令遵循
- 后置推理 RL(中等成本)— 需要可解释性但预算有限
- 前置推理 RL(高成本)— 正统 RL,需要 Dense 模型
参考
- qifu-llm-finance-practice — 来源分享
- pre-hoc-reasoning-rl — 对比方案
- moe-lora-toolchain-conflict — 限制前置推理 RL 的现实因素