SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.6 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

前置推理 RL (Pre-Hoc Reasoning RL)

2026-06-14

2026-06-14

concept

rl

post-training

reasoning

training

raw/articles/qifu-llm-finance-practice-2026.md

前置推理 RL (Pre-Hoc Reasoning RL)

奇富科技王元描述的高成本后训练方案：模型在生成最终答案之前先生成推理过程，再基于推理给出答案。

特征

属于"正统 RL"路径，训练范式更接近标准的 reasoning RL
在绝对准确率上有微弱优势（相比 post-hoc-reasoning-rl）
但在成本与工程复杂度上存在显著劣势

现实限制

MOE 模型不兼容：VeRL 框架不支持 MOE 模型的 RL+LoRA 后训练，部分场景被迫退回全参微调
最适合 Dense 模型：LoRA 架构对 Dense 模型最友好，MOE 工具链支持待完善
需要拒绝采样 reasoning：训练成本高，算力与训练时长显著增加

三阶梯成本框架

在 qifu-llm-finance-practice 中，前置推理 RL 定位为最高成本方案：

SFT (低成本) < 后置推理 RL (中成本) < 前置推理 RL (高成本)

选择建议：仅当业务同时要求最高准确率 + 内置推理能力，且基模为 Dense 模型、有充足 GPU 预算时才采用。

参考

qifu-llm-finance-practice — 来源分享
post-hoc-reasoning-rl — 性价比更高的替代方案
moe-lora-toolchain-conflict — 限制前置推理 RL 的现实阻碍