Files
myWiki/concepts/post-hoc-reasoning-rl.md

1.7 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
后置推理 RL (Post-Hoc Reasoning RL) 2026-06-14 2026-06-14 concept
rl
post-training
reasoning
cost-efficiency
raw/articles/qifu-llm-finance-practice-2026.md

后置推理 RL (Post-Hoc Reasoning RL)

奇富科技王元提出的中等成本后训练方案:在模型生成最终答案后再生成推理过程,而非在生成答案前先生成推理。

与前置推理 RL 的对比

维度 后置推理 RL 前置推理 RL
推理时序 答案 → 理由 理由 → 答案
成本 中等
训练复杂度 低(可利用 SFT 流水线) 高(需拒绝采样 reasoning
工具链兼容性 受限MOE 模型 VeRL 不支持)
可解释性 有(核心需求满足)
绝对准确率 略低于前置 微弱优势

适用场景

在产品推荐等需要给出"推荐理由"的任务中,业务侧追求可解释性。后置推理 RL 在满足可解释性需求的同时:

  • 训练成本显著低于前置推理 RL
  • 可利用现有 SFT 工具链,无需拒绝采样
  • 适合预算有限但需要推理能力的场景

成本博弈框架

奇富科技提出的三阶梯成本框架:

  1. SFT 微调(低成本)— 结构化任务、指令遵循
  2. 后置推理 RL(中等成本)— 需要可解释性但预算有限
  3. 前置推理 RL(高成本)— 正统 RL需要 Dense 模型

参考