SidneyZhang/myWiki

Files

Sidney Zhang 56c4d3ef7c

20260429:一些新东西

2026-04-29 16:28:13 +08:00

1.4 KiB

Raw Blame History

注意力熵崩溃 (Attention Entropy Collapse)

注意力退化现象，随着 Transformer 层数加深，注意力分布逐渐退化为接近均匀或过度集中的退化模式。

问题描述

在深层 Transformer 中：

熵崩溃: 注意力分布的熵随层数加深而系统性降低 → 注意力失去区分度
Rank Collapse: 注意力矩阵的秩下降 → Token 表示趋向同质化
过度集中: 少数 Token 占据绝大部分注意力权重 → 信息瓶颈

根本原因

Softmax 饱和: 深度网络中注意力 logits 方差累积增长，导致 softmax 进入饱和区
残差连接放大: 残差流的累积效应使深层注意力退化
训练不稳定性: 深层梯度消失使注意力无法学习有用模式

影响

深层模型层数增加的边际收益递减
长上下文信息的有效利用受限
模型表达能力退化

缓解方案

热处理 (Heat Treatment): 动态调整 softmax 温度
熵正则化: 在训练目标中加入注意力熵正则项
架构创新: MLP 替代方案（如 mamba-ssm）天然不受此影响

相关概念

multi-head-attention — MHA 中的深层退化
depth-scaling-signal-degradation — 相关但不同：信号退化 vs 注意力退化
mamba-ssm — 状态空间模型无此问题
llm-attention-survey-2026 — 综述参考