--- title: 注意力熵崩溃 (Attention Entropy Collapse) created: 2025-04-15 updated: 2026-05-01 type: concept tags: [] sources: [] --- # 注意力熵崩溃 (Attention Entropy Collapse) **注意力退化现象**,随着 Transformer 层数加深,注意力分布逐渐退化为接近均匀或过度集中的退化模式。 ## 问题描述 在深层 Transformer 中: - **熵崩溃**: 注意力分布的熵随层数加深而系统性降低 → 注意力失去区分度 - **Rank Collapse**: 注意力矩阵的秩下降 → Token 表示趋向同质化 - **过度集中**: 少数 Token 占据绝大部分注意力权重 → 信息瓶颈 ## 根本原因 1. **Softmax 饱和**: 深度网络中注意力 logits 方差累积增长,导致 softmax 进入饱和区 2. **残差连接放大**: 残差流的累积效应使深层注意力退化 3. **训练不稳定性**: 深层梯度消失使注意力无法学习有用模式 ## 影响 - 深层模型层数增加的边际收益递减 - 长上下文信息的有效利用受限 - 模型表达能力退化 ## 缓解方案 - **热处理 (Heat Treatment)**: 动态调整 softmax 温度 - **熵正则化**: 在训练目标中加入注意力熵正则项 - **架构创新**: MLP 替代方案(如 [[mamba-ssm|Mamba]])天然不受此影响 ## 相关概念 - [[multi-head-attention]] — MHA 中的深层退化 - [[depth-scaling-signal-degradation]] — 相关但不同:信号退化 vs 注意力退化 - [[mamba-ssm]] — 状态空间模型无此问题 - [[llm-attention-survey-2026]] — 综述参考