Files
myWiki/concepts/attention-sinks.md

669 B
Raw Blame History

注意力汇 (Attention Sinks)

占位符 — 待补充完整内容。

核心概念: 某些初始 Token如 BOS天然吸引大量注意力权重可作为"注意力汇"稳定长序列推理。基于此可以设计高效的 KV 缓存淘汰策略(如 StreamingLLM、H2O

关键应用

  • StreamingLLM: 保留初始 Attention Sinks + 最近 Token 实现无限长流式推理
  • H2O: 基于注意力权重选择性地保留"重击者"Token 的 KV
  • SinkRouter: 汇感知的路由优化

相关概念