20260617:目前有914 页
This commit is contained in:
44
concepts/moe-lora-toolchain-conflict.md
Normal file
44
concepts/moe-lora-toolchain-conflict.md
Normal file
@@ -0,0 +1,44 @@
|
||||
---
|
||||
title: "MOE + LoRA 工具链冲突"
|
||||
created: 2026-06-14
|
||||
updated: 2026-06-14
|
||||
type: concept
|
||||
tags: [moe, lora, post-training, toolchain, engineering]
|
||||
sources: [raw/articles/qifu-llm-finance-practice-2026.md]
|
||||
---
|
||||
|
||||
# MOE + LoRA 工具链冲突
|
||||
|
||||
奇富科技王元披露的**现实工程阻碍**:MOE (Mixture of Experts) 模型在进行后训练(RL + LoRA)时,主流框架 VeRL **不支持**,导致无法使用 LoRA 的灵活性。
|
||||
|
||||
## 问题本质
|
||||
|
||||
- MOE 模型在推理吞吐量上有明显优势(vs Dense 模型)
|
||||
- 但后训练工具链对 MOE 支持不完善
|
||||
- VeRL 框架不支持 MOE 模型的 RL+LoRA
|
||||
- 部分场景**被迫退回全参微调**,成本大幅上升
|
||||
|
||||
## 影响
|
||||
|
||||
| 方案 | MOE 兼容 | Dense 兼容 | 成本 | 灵活性 |
|
||||
|------|---------|-----------|------|--------|
|
||||
| SFT + LoRA | 部分支持 | ✅ | 低 | 高 |
|
||||
| RL + LoRA (VeRL) | ❌ | ✅ | 中 | 高 |
|
||||
| RL + 全参微调 | ✅ | ✅ | 高 | 低 |
|
||||
|
||||
## 对后训练路径选择的影响
|
||||
|
||||
这一冲突直接影响 [[pre-hoc-reasoning-rl|前置推理 RL]] 的可行性——因为前置推理 RL 需要 LoRA 灵活性,而 MOE 模型不支持,导致实际可选路径受限。
|
||||
|
||||
## 工程启示
|
||||
|
||||
- **基模选型需反向约束训练策略**:选 MOE 就要接受后训练工具链受限
|
||||
- **信创硬件环境下的 vLLM 版本兼容性**也是额外阻碍
|
||||
- 如果业务需要灵活的 LoRA 后训练,应优先选择 **Dense 模型**
|
||||
- MOE 的推理吞吐优势可能被训练灵活性损失抵消
|
||||
|
||||
## 参考
|
||||
|
||||
- [[qifu-llm-finance-practice|奇富科技金融 LLM 实践]] — 来源分享
|
||||
- [[post-hoc-reasoning-rl|后置推理 RL]] — MOE 兼容的替代方案
|
||||
- [[pre-hoc-reasoning-rl|前置推理 RL]] — 受此冲突限制的高成本方案
|
||||
Reference in New Issue
Block a user