SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.7 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

后置推理 RL (Post-Hoc Reasoning RL)

2026-06-14

2026-06-14

concept

rl

post-training

reasoning

cost-efficiency

raw/articles/qifu-llm-finance-practice-2026.md

后置推理 RL (Post-Hoc Reasoning RL)

奇富科技王元提出的中等成本后训练方案：在模型生成最终答案后再生成推理过程，而非在生成答案前先生成推理。

与前置推理 RL 的对比

维度	后置推理 RL	前置推理 RL
推理时序	答案 → 理由	理由 → 答案
成本	中等	高
训练复杂度	低（可利用 SFT 流水线）	高（需拒绝采样 reasoning）
工具链兼容性	好	受限（MOE 模型 VeRL 不支持）
可解释性	有（核心需求满足）	有
绝对准确率	略低于前置	微弱优势

适用场景

在产品推荐等需要给出"推荐理由"的任务中，业务侧追求可解释性。后置推理 RL 在满足可解释性需求的同时：

训练成本显著低于前置推理 RL
可利用现有 SFT 工具链，无需拒绝采样
适合预算有限但需要推理能力的场景

成本博弈框架

奇富科技提出的三阶梯成本框架：

SFT 微调（低成本）— 结构化任务、指令遵循
后置推理 RL（中等成本）— 需要可解释性但预算有限
前置推理 RL（高成本）— 正统 RL，需要 Dense 模型

参考

qifu-llm-finance-practice — 来源分享
pre-hoc-reasoning-rl — 对比方案
moe-lora-toolchain-conflict — 限制前置推理 RL 的现实因素