Files
myWiki/concepts/moe-lora-toolchain-conflict.md

45 lines
1.7 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "MOE + LoRA 工具链冲突"
created: 2026-06-14
updated: 2026-06-14
type: concept
tags: [moe, lora, post-training, toolchain, engineering]
sources: [raw/articles/qifu-llm-finance-practice-2026.md]
---
# MOE + LoRA 工具链冲突
奇富科技王元披露的**现实工程阻碍**MOE (Mixture of Experts) 模型在进行后训练RL + LoRA主流框架 VeRL **不支持**,导致无法使用 LoRA 的灵活性。
## 问题本质
- MOE 模型在推理吞吐量上有明显优势vs Dense 模型)
- 但后训练工具链对 MOE 支持不完善
- VeRL 框架不支持 MOE 模型的 RL+LoRA
- 部分场景**被迫退回全参微调**,成本大幅上升
## 影响
| 方案 | MOE 兼容 | Dense 兼容 | 成本 | 灵活性 |
|------|---------|-----------|------|--------|
| SFT + LoRA | 部分支持 | ✅ | 低 | 高 |
| RL + LoRA (VeRL) | ❌ | ✅ | 中 | 高 |
| RL + 全参微调 | ✅ | ✅ | 高 | 低 |
## 对后训练路径选择的影响
这一冲突直接影响 [[pre-hoc-reasoning-rl|前置推理 RL]] 的可行性——因为前置推理 RL 需要 LoRA 灵活性,而 MOE 模型不支持,导致实际可选路径受限。
## 工程启示
- **基模选型需反向约束训练策略**:选 MOE 就要接受后训练工具链受限
- **信创硬件环境下的 vLLM 版本兼容性**也是额外阻碍
- 如果业务需要灵活的 LoRA 后训练,应优先选择 **Dense 模型**
- MOE 的推理吞吐优势可能被训练灵活性损失抵消
## 参考
- [[qifu-llm-finance-practice|奇富科技金融 LLM 实践]] — 来源分享
- [[post-hoc-reasoning-rl|后置推理 RL]] — MOE 兼容的替代方案
- [[pre-hoc-reasoning-rl|前置推理 RL]] — 受此冲突限制的高成本方案