Files
myWiki/concepts/seer-attention.md

433 B

SeerAttention

可学习稀疏注意力,通过预测注意力稀疏模式实现高效的动态稀疏计算。

核心机制

训练一个小型预测网络来预估每个 Q 头需要关注哪些 K 位置,在推理时只计算预测的热点区域。

相关概念