465 B
465 B
Mixture of Attention Schemes (MoAS)
注意力方案混合路由,根据 Token 复杂度动态分配注意力类型。
核心思想
"简单" Token 用廉价 multi-query-attention,"困难" Token 用强大 multi-head-attention,实现条件计算。
相关概念
- multi-head-attention — MHA
- grouped-query-attention — GQA
- duo-attention — 另一种分类方案
- llm-attention-survey-2026 — 综述参考