myWiki/concepts/attention-entropy-collapse.md

# 注意力熵崩溃 (Attention Entropy Collapse)

**注意力退化现象**，随着 Transformer 层数加深，注意力分布逐渐退化为接近均匀或过度集中的退化模式。

## 问题描述

在深层 Transformer 中：
- **熵崩溃**: 注意力分布的熵随层数加深而系统性降低 → 注意力失去区分度
- **Rank Collapse**: 注意力矩阵的秩下降 → Token 表示趋向同质化
- **过度集中**: 少数 Token 占据绝大部分注意力权重 → 信息瓶颈

## 根本原因

1. **Softmax 饱和**: 深度网络中注意力 logits 方差累积增长，导致 softmax 进入饱和区
2. **残差连接放大**: 残差流的累积效应使深层注意力退化
3. **训练不稳定性**: 深层梯度消失使注意力无法学习有用模式

## 影响

- 深层模型层数增加的边际收益递减
- 长上下文信息的有效利用受限
- 模型表达能力退化

## 缓解方案

- **热处理 (Heat Treatment)**: 动态调整 softmax 温度
- **熵正则化**: 在训练目标中加入注意力熵正则项
- **架构创新**: MLP 替代方案（如 [[mamba-ssm|Mamba]]）天然不受此影响

## 相关概念

- [[multi-head-attention]] — MHA 中的深层退化
- [[depth-scaling-signal-degradation]] — 相关但不同：信号退化 vs 注意力退化
- [[mamba-ssm]] — 状态空间模型无此问题
- [[llm-attention-survey-2026]] — 综述参考