SidneyZhang/myWiki

Files

Sidney Zhang b116710e4c

20260514:增加新内容

2026-05-14 13:54:52 +08:00

2.9 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Review: StreamingLLM — 基于注意力汇的无限长流式语言模型

2026-05-14

2026-05-14

review

llm

attention

streaming

kv-cache

https://arxiv.org/abs/2309.17453

Review: StreamingLLM — 基于注意力汇的无限长流式语言模型

📌 基本信息

论文: Efficient Streaming Language Models with Attention Sinks
作者: Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis
机构: MIT / Meta AI / CMU / NVIDIA
发表: ICLR 2024
arXiv: 2309.17453
代码: mit-han-lab/streaming-llm

🎯 核心概念

attention-sinks — 初始 Token 在所有层/头中吸引不成比例的高注意力分数，不是因语义而是因绝对位置。根因是 SoftMax 归一化强制求和为 1。
streaming-llm — 保留 4 个初始 Token 的 KV + 最近 Token 的滑动窗口，使 LLM 无需微调即可处理无限长流式输入。
window-attention崩溃 — 仅缓存最近 Token 的朴素方案因逐出注意力汇 Token 而 PPL 飙升至 5000+。
rolling-kv-cache — 固定大小的两段式缓存，位置编码在 cache 内部连续分配（关键设计）。
sink-token — 训练样本前加可学习 Token 作为唯一注意力汇，仅需 1 个 Token 替代 4 个。
softmax-off-by-one — SoftMax₁ = eˣ/(1+Σeˣ)，允许丢弃注意力但不够充分。

🔗 概念网络

核心连接: attention-sinks ↔ streaming-llm ↔ rolling-kv-cache
问题链: length-extrapolation → window-attention失败 → attention-sinks → streaming-llm方案
改进链: Vanilla → Zero Sink (softmax-off-by-one) → sink-token
扩展网络: 连接到 kv-cache-bottleneck、rotary-position-embedding、llm-attention-survey-2026

📚 Wiki 集成

新增页面: 6 个（1 论文 + 5 概念）
更新页面: 1 个（attention-sinks 从占位符 → 完整内容）
链接密度: 核心概念平均 5-7 个链接
总规模: 294 → 300 页

💡 关键洞察

SoftMax 的"结构必然性"：注意力汇不是 bug，而是 SoftMax 归一化约束下的结构必然产物。这个洞察改变了我们对注意力机制的理解——"多余"的注意力不是模型学坏了，而是数学结构要求它存在。
最简单的方案最优雅：StreamingLLM 不需要微调、不需要修改架构、不需要重新训练——只是保留 4 个初始 Token 的 KV。这种"发现现象→解释机制→最小干预"的研究范式堪称典范。