1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 前置推理 RL (Pre-Hoc Reasoning RL) | 2026-06-14 | 2026-06-14 | concept |
|
|
前置推理 RL (Pre-Hoc Reasoning RL)
奇富科技王元描述的高成本后训练方案:模型在生成最终答案之前先生成推理过程,再基于推理给出答案。
特征
- 属于"正统 RL"路径,训练范式更接近标准的 reasoning RL
- 在绝对准确率上有微弱优势(相比 post-hoc-reasoning-rl)
- 但在成本与工程复杂度上存在显著劣势
现实限制
- MOE 模型不兼容:VeRL 框架不支持 MOE 模型的 RL+LoRA 后训练,部分场景被迫退回全参微调
- 最适合 Dense 模型:LoRA 架构对 Dense 模型最友好,MOE 工具链支持待完善
- 需要拒绝采样 reasoning:训练成本高,算力与训练时长显著增加
三阶梯成本框架
在 qifu-llm-finance-practice 中,前置推理 RL 定位为最高成本方案:
SFT (低成本) < 后置推理 RL (中成本) < 前置推理 RL (高成本)
选择建议:仅当业务同时要求最高准确率 + 内置推理能力,且基模为 Dense 模型、有充足 GPU 预算时才采用。
参考
- qifu-llm-finance-practice — 来源分享
- post-hoc-reasoning-rl — 性价比更高的替代方案
- moe-lora-toolchain-conflict — 限制前置推理 RL 的现实阻碍