20260617:目前有914 页

2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions
--- a/concepts/post-hoc-reasoning-rl.md
+++ b/concepts/post-hoc-reasoning-rl.md
@@ -0,0 +1,43 @@
+---
+title: "后置推理 RL (Post-Hoc Reasoning RL)"
+created: 2026-06-14
+updated: 2026-06-14
+type: concept
+tags: [rl, post-training, reasoning, cost-efficiency]
+sources: [raw/articles/qifu-llm-finance-practice-2026.md]
+---
+
+# 后置推理 RL (Post-Hoc Reasoning RL)
+
+奇富科技王元提出的**中等成本后训练方案**：在模型生成最终答案后再生成推理过程，而非在生成答案前先生成推理。
+
+## 与前置推理 RL 的对比
+
+| 维度 | 后置推理 RL | 前置推理 RL |
+|------|-----------|-----------|
+| 推理时序 | 答案 → 理由 | 理由 → 答案 |
+| 成本 | 中等 | 高 |
+| 训练复杂度 | 低（可利用 SFT 流水线） | 高（需拒绝采样 reasoning） |
+| 工具链兼容性 | 好 | 受限（MOE 模型 VeRL 不支持） |
+| 可解释性 | 有（核心需求满足） | 有 |
+| 绝对准确率 | 略低于前置 | 微弱优势 |
+
+## 适用场景
+
+在产品推荐等需要给出"推荐理由"的任务中，业务侧追求**可解释性**。后置推理 RL 在满足可解释性需求的同时：
+- 训练成本显著低于前置推理 RL
+- 可利用现有 SFT 工具链，无需拒绝采样
+- 适合**预算有限但需要推理能力**的场景
+
+## 成本博弈框架
+
+奇富科技提出的三阶梯成本框架：
+1. **SFT 微调**（低成本）— 结构化任务、指令遵循
+2. **后置推理 RL**（中等成本）— 需要可解释性但预算有限
+3. **前置推理 RL**（高成本）— 正统 RL，需要 Dense 模型
+
+## 参考
+
+- [[qifu-llm-finance-practice|奇富科技金融 LLM 实践]] — 来源分享
+- [[pre-hoc-reasoning-rl|前置推理 RL]] — 对比方案
+- [[moe-lora-toolchain-conflict|MOE + LoRA 冲突]] — 限制前置推理 RL 的现实因素