20260617:目前有914 页

This commit is contained in:
2026-06-17 15:02:40 +08:00
parent e96b955fda
commit 91fac5b6fc
423 changed files with 20687 additions and 34 deletions

View File

@@ -0,0 +1,43 @@
---
title: "后置推理 RL (Post-Hoc Reasoning RL)"
created: 2026-06-14
updated: 2026-06-14
type: concept
tags: [rl, post-training, reasoning, cost-efficiency]
sources: [raw/articles/qifu-llm-finance-practice-2026.md]
---
# 后置推理 RL (Post-Hoc Reasoning RL)
奇富科技王元提出的**中等成本后训练方案**:在模型生成最终答案后再生成推理过程,而非在生成答案前先生成推理。
## 与前置推理 RL 的对比
| 维度 | 后置推理 RL | 前置推理 RL |
|------|-----------|-----------|
| 推理时序 | 答案 → 理由 | 理由 → 答案 |
| 成本 | 中等 | 高 |
| 训练复杂度 | 低(可利用 SFT 流水线) | 高(需拒绝采样 reasoning |
| 工具链兼容性 | 好 | 受限MOE 模型 VeRL 不支持) |
| 可解释性 | 有(核心需求满足) | 有 |
| 绝对准确率 | 略低于前置 | 微弱优势 |
## 适用场景
在产品推荐等需要给出"推荐理由"的任务中,业务侧追求**可解释性**。后置推理 RL 在满足可解释性需求的同时:
- 训练成本显著低于前置推理 RL
- 可利用现有 SFT 工具链,无需拒绝采样
- 适合**预算有限但需要推理能力**的场景
## 成本博弈框架
奇富科技提出的三阶梯成本框架:
1. **SFT 微调**(低成本)— 结构化任务、指令遵循
2. **后置推理 RL**(中等成本)— 需要可解释性但预算有限
3. **前置推理 RL**(高成本)— 正统 RL需要 Dense 模型
## 参考
- [[qifu-llm-finance-practice|奇富科技金融 LLM 实践]] — 来源分享
- [[pre-hoc-reasoning-rl|前置推理 RL]] — 对比方案
- [[moe-lora-toolchain-conflict|MOE + LoRA 冲突]] — 限制前置推理 RL 的现实因素