Files
myWiki/concepts/moe-lora-toolchain-conflict.md

1.7 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
MOE + LoRA 工具链冲突 2026-06-14 2026-06-14 concept
moe
lora
post-training
toolchain
engineering
raw/articles/qifu-llm-finance-practice-2026.md

MOE + LoRA 工具链冲突

奇富科技王元披露的现实工程阻碍MOE (Mixture of Experts) 模型在进行后训练RL + LoRA主流框架 VeRL 不支持,导致无法使用 LoRA 的灵活性。

问题本质

  • MOE 模型在推理吞吐量上有明显优势vs Dense 模型)
  • 但后训练工具链对 MOE 支持不完善
  • VeRL 框架不支持 MOE 模型的 RL+LoRA
  • 部分场景被迫退回全参微调,成本大幅上升

影响

方案 MOE 兼容 Dense 兼容 成本 灵活性
SFT + LoRA 部分支持
RL + LoRA (VeRL)
RL + 全参微调

对后训练路径选择的影响

这一冲突直接影响 pre-hoc-reasoning-rl 的可行性——因为前置推理 RL 需要 LoRA 灵活性,而 MOE 模型不支持,导致实际可选路径受限。

工程启示

  • 基模选型需反向约束训练策略:选 MOE 就要接受后训练工具链受限
  • 信创硬件环境下的 vLLM 版本兼容性也是额外阻碍
  • 如果业务需要灵活的 LoRA 后训练,应优先选择 Dense 模型
  • MOE 的推理吞吐优势可能被训练灵活性损失抵消

参考