Files
myWiki/concepts/pre-hoc-reasoning-rl.md

41 lines
1.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "前置推理 RL (Pre-Hoc Reasoning RL)"
created: 2026-06-14
updated: 2026-06-14
type: concept
tags: [rl, post-training, reasoning, training]
sources: [raw/articles/qifu-llm-finance-practice-2026.md]
---
# 前置推理 RL (Pre-Hoc Reasoning RL)
奇富科技王元描述的高成本后训练方案:模型在生成最终答案之前先生成推理过程,再基于推理给出答案。
## 特征
- 属于"正统 RL"路径,训练范式更接近标准的 reasoning RL
- 在绝对准确率上有微弱优势(相比 [[post-hoc-reasoning-rl|后置推理 RL]]
- 但在成本与工程复杂度上存在显著劣势
## 现实限制
1. **MOE 模型不兼容**VeRL 框架不支持 MOE 模型的 RL+LoRA 后训练,部分场景被迫退回全参微调
2. **最适合 Dense 模型**LoRA 架构对 Dense 模型最友好MOE 工具链支持待完善
3. **需要拒绝采样 reasoning**:训练成本高,算力与训练时长显著增加
## 三阶梯成本框架
在 [[qifu-llm-finance-practice|奇富科技金融 LLM 实践]] 中,前置推理 RL 定位为最高成本方案:
```
SFT (低成本) < 后置推理 RL (中成本) < 前置推理 RL (高成本)
```
选择建议:仅当业务同时要求**最高准确率 + 内置推理能力**,且基模为 Dense 模型、有充足 GPU 预算时才采用。
## 参考
- [[qifu-llm-finance-practice|奇富科技金融 LLM 实践]] — 来源分享
- [[post-hoc-reasoning-rl|后置推理 RL]] — 性价比更高的替代方案
- [[moe-lora-toolchain-conflict|MOE + LoRA 冲突]] — 限制前置推理 RL 的现实阻碍