Files
myWiki/concepts/attention-entropy-collapse.md

36 lines
1.4 KiB
Markdown

# 注意力熵崩溃 (Attention Entropy Collapse)
**注意力退化现象**,随着 Transformer 层数加深,注意力分布逐渐退化为接近均匀或过度集中的退化模式。
## 问题描述
在深层 Transformer 中:
- **熵崩溃**: 注意力分布的熵随层数加深而系统性降低 → 注意力失去区分度
- **Rank Collapse**: 注意力矩阵的秩下降 → Token 表示趋向同质化
- **过度集中**: 少数 Token 占据绝大部分注意力权重 → 信息瓶颈
## 根本原因
1. **Softmax 饱和**: 深度网络中注意力 logits 方差累积增长,导致 softmax 进入饱和区
2. **残差连接放大**: 残差流的累积效应使深层注意力退化
3. **训练不稳定性**: 深层梯度消失使注意力无法学习有用模式
## 影响
- 深层模型层数增加的边际收益递减
- 长上下文信息的有效利用受限
- 模型表达能力退化
## 缓解方案
- **热处理 (Heat Treatment)**: 动态调整 softmax 温度
- **熵正则化**: 在训练目标中加入注意力熵正则项
- **架构创新**: MLP 替代方案(如 [[mamba-ssm|Mamba]])天然不受此影响
## 相关概念
- [[multi-head-attention]] — MHA 中的深层退化
- [[depth-scaling-signal-degradation]] — 相关但不同:信号退化 vs 注意力退化
- [[mamba-ssm]] — 状态空间模型无此问题
- [[llm-attention-survey-2026]] — 综述参考