20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/pre-hoc-reasoning-rl.md
+++ b/concepts/pre-hoc-reasoning-rl.md
@@ -0,0 +1,40 @@
+---
+title: "前置推理 RL (Pre-Hoc Reasoning RL)"
+created: 2026-06-14
+updated: 2026-06-14
+type: concept
+tags: [rl, post-training, reasoning, training]
+sources: [raw/articles/qifu-llm-finance-practice-2026.md]
+---
+
+# 前置推理 RL (Pre-Hoc Reasoning RL)
+
+奇富科技王元描述的高成本后训练方案：模型在生成最终答案之前先生成推理过程，再基于推理给出答案。
+
+## 特征
+
+- 属于"正统 RL"路径，训练范式更接近标准的 reasoning RL
+- 在绝对准确率上有微弱优势（相比 [[post-hoc-reasoning-rl|后置推理 RL]]）
+- 但在成本与工程复杂度上存在显著劣势
+
+## 现实限制
+
+1. **MOE 模型不兼容**：VeRL 框架不支持 MOE 模型的 RL+LoRA 后训练，部分场景被迫退回全参微调
+2. **最适合 Dense 模型**：LoRA 架构对 Dense 模型最友好，MOE 工具链支持待完善
+3. **需要拒绝采样 reasoning**：训练成本高，算力与训练时长显著增加
+
+## 三阶梯成本框架
+
+在 [[qifu-llm-finance-practice|奇富科技金融 LLM 实践]] 中，前置推理 RL 定位为最高成本方案：
+
+```
+SFT (低成本) < 后置推理 RL (中成本) < 前置推理 RL (高成本)
+```
+
+选择建议：仅当业务同时要求**最高准确率 + 内置推理能力**，且基模为 Dense 模型、有充足 GPU 预算时才采用。
+
+## 参考
+
+- [[qifu-llm-finance-practice|奇富科技金融 LLM 实践]] — 来源分享
+- [[post-hoc-reasoning-rl|后置推理 RL]] — 性价比更高的替代方案
+- [[moe-lora-toolchain-conflict|MOE + LoRA 冲突]] — 限制前置推理 RL 的现实阻碍