# SeerAttention **可学习稀疏注意力**,通过预测注意力稀疏模式实现高效的动态稀疏计算。 ## 核心机制 训练一个小型预测网络来预估每个 Q 头需要关注哪些 K 位置,在推理时只计算预测的热点区域。 ## 相关概念 - [[sparse-attention-patterns]] — 稀疏注意力全景 - [[native-sparse-attention]] — NSA 对比 - [[llm-attention-survey-2026]] — 综述参考