20260617:目前有914 页
This commit is contained in:
40
concepts/pre-hoc-reasoning-rl.md
Normal file
40
concepts/pre-hoc-reasoning-rl.md
Normal file
@@ -0,0 +1,40 @@
|
||||
---
|
||||
title: "前置推理 RL (Pre-Hoc Reasoning RL)"
|
||||
created: 2026-06-14
|
||||
updated: 2026-06-14
|
||||
type: concept
|
||||
tags: [rl, post-training, reasoning, training]
|
||||
sources: [raw/articles/qifu-llm-finance-practice-2026.md]
|
||||
---
|
||||
|
||||
# 前置推理 RL (Pre-Hoc Reasoning RL)
|
||||
|
||||
奇富科技王元描述的高成本后训练方案:模型在生成最终答案之前先生成推理过程,再基于推理给出答案。
|
||||
|
||||
## 特征
|
||||
|
||||
- 属于"正统 RL"路径,训练范式更接近标准的 reasoning RL
|
||||
- 在绝对准确率上有微弱优势(相比 [[post-hoc-reasoning-rl|后置推理 RL]])
|
||||
- 但在成本与工程复杂度上存在显著劣势
|
||||
|
||||
## 现实限制
|
||||
|
||||
1. **MOE 模型不兼容**:VeRL 框架不支持 MOE 模型的 RL+LoRA 后训练,部分场景被迫退回全参微调
|
||||
2. **最适合 Dense 模型**:LoRA 架构对 Dense 模型最友好,MOE 工具链支持待完善
|
||||
3. **需要拒绝采样 reasoning**:训练成本高,算力与训练时长显著增加
|
||||
|
||||
## 三阶梯成本框架
|
||||
|
||||
在 [[qifu-llm-finance-practice|奇富科技金融 LLM 实践]] 中,前置推理 RL 定位为最高成本方案:
|
||||
|
||||
```
|
||||
SFT (低成本) < 后置推理 RL (中成本) < 前置推理 RL (高成本)
|
||||
```
|
||||
|
||||
选择建议:仅当业务同时要求**最高准确率 + 内置推理能力**,且基模为 Dense 模型、有充足 GPU 预算时才采用。
|
||||
|
||||
## 参考
|
||||
|
||||
- [[qifu-llm-finance-practice|奇富科技金融 LLM 实践]] — 来源分享
|
||||
- [[post-hoc-reasoning-rl|后置推理 RL]] — 性价比更高的替代方案
|
||||
- [[moe-lora-toolchain-conflict|MOE + LoRA 冲突]] — 限制前置推理 RL 的现实阻碍
|
||||
Reference in New Issue
Block a user