title, created, updated, type, tags, sources
| title |
created |
updated |
type |
tags |
sources |
| MOE + LoRA 工具链冲突 |
2026-06-14 |
2026-06-14 |
concept |
| moe |
| lora |
| post-training |
| toolchain |
| engineering |
|
| raw/articles/qifu-llm-finance-practice-2026.md |
|
MOE + LoRA 工具链冲突
奇富科技王元披露的现实工程阻碍:MOE (Mixture of Experts) 模型在进行后训练(RL + LoRA)时,主流框架 VeRL 不支持,导致无法使用 LoRA 的灵活性。
问题本质
- MOE 模型在推理吞吐量上有明显优势(vs Dense 模型)
- 但后训练工具链对 MOE 支持不完善
- VeRL 框架不支持 MOE 模型的 RL+LoRA
- 部分场景被迫退回全参微调,成本大幅上升
影响
| 方案 |
MOE 兼容 |
Dense 兼容 |
成本 |
灵活性 |
| SFT + LoRA |
部分支持 |
✅ |
低 |
高 |
| RL + LoRA (VeRL) |
❌ |
✅ |
中 |
高 |
| RL + 全参微调 |
✅ |
✅ |
高 |
低 |
对后训练路径选择的影响
这一冲突直接影响 pre-hoc-reasoning-rl 的可行性——因为前置推理 RL 需要 LoRA 灵活性,而 MOE 模型不支持,导致实际可选路径受限。
工程启示
- 基模选型需反向约束训练策略:选 MOE 就要接受后训练工具链受限
- 信创硬件环境下的 vLLM 版本兼容性也是额外阻碍
- 如果业务需要灵活的 LoRA 后训练,应优先选择 Dense 模型
- MOE 的推理吞吐优势可能被训练灵活性损失抵消
参考