Files
myWiki/concepts/pre-hoc-reasoning-rl.md

1.6 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
前置推理 RL (Pre-Hoc Reasoning RL) 2026-06-14 2026-06-14 concept
rl
post-training
reasoning
training
raw/articles/qifu-llm-finance-practice-2026.md

前置推理 RL (Pre-Hoc Reasoning RL)

奇富科技王元描述的高成本后训练方案:模型在生成最终答案之前先生成推理过程,再基于推理给出答案。

特征

  • 属于"正统 RL"路径,训练范式更接近标准的 reasoning RL
  • 在绝对准确率上有微弱优势(相比 post-hoc-reasoning-rl
  • 但在成本与工程复杂度上存在显著劣势

现实限制

  1. MOE 模型不兼容VeRL 框架不支持 MOE 模型的 RL+LoRA 后训练,部分场景被迫退回全参微调
  2. 最适合 Dense 模型LoRA 架构对 Dense 模型最友好MOE 工具链支持待完善
  3. 需要拒绝采样 reasoning:训练成本高,算力与训练时长显著增加

三阶梯成本框架

qifu-llm-finance-practice 中,前置推理 RL 定位为最高成本方案:

SFT (低成本) < 后置推理 RL (中成本) < 前置推理 RL (高成本)

选择建议:仅当业务同时要求最高准确率 + 内置推理能力,且基模为 Dense 模型、有充足 GPU 预算时才采用。

参考