SidneyZhang/myWiki

Files

Sidney Zhang 91fac5b6fc

20260617:目前有914 页

2026-06-17 15:02:40 +08:00

1.7 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

MOE + LoRA 工具链冲突

2026-06-14

2026-06-14

concept

moe

lora

post-training

toolchain

engineering

raw/articles/qifu-llm-finance-practice-2026.md

MOE + LoRA 工具链冲突

奇富科技王元披露的现实工程阻碍：MOE (Mixture of Experts) 模型在进行后训练（RL + LoRA）时，主流框架 VeRL 不支持，导致无法使用 LoRA 的灵活性。

问题本质

MOE 模型在推理吞吐量上有明显优势（vs Dense 模型）
但后训练工具链对 MOE 支持不完善
VeRL 框架不支持 MOE 模型的 RL+LoRA
部分场景被迫退回全参微调，成本大幅上升

影响

方案	MOE 兼容	Dense 兼容	成本	灵活性
SFT + LoRA	部分支持	✅	低	高
RL + LoRA (VeRL)	❌	✅	中	高
RL + 全参微调	✅	✅	高	低

对后训练路径选择的影响

这一冲突直接影响 pre-hoc-reasoning-rl 的可行性——因为前置推理 RL 需要 LoRA 灵活性，而 MOE 模型不支持，导致实际可选路径受限。

工程启示

基模选型需反向约束训练策略：选 MOE 就要接受后训练工具链受限
信创硬件环境下的 vLLM 版本兼容性也是额外阻碍
如果业务需要灵活的 LoRA 后训练，应优先选择 Dense 模型
MOE 的推理吞吐优势可能被训练灵活性损失抵消

参考

qifu-llm-finance-practice — 来源分享
post-hoc-reasoning-rl — MOE 兼容的替代方案
pre-hoc-reasoning-rl — 受此冲突限制的高成本方案