Files
myWiki/concepts/attention-entropy-collapse.md

1.4 KiB

注意力熵崩溃 (Attention Entropy Collapse)

注意力退化现象,随着 Transformer 层数加深,注意力分布逐渐退化为接近均匀或过度集中的退化模式。

问题描述

在深层 Transformer 中:

  • 熵崩溃: 注意力分布的熵随层数加深而系统性降低 → 注意力失去区分度
  • Rank Collapse: 注意力矩阵的秩下降 → Token 表示趋向同质化
  • 过度集中: 少数 Token 占据绝大部分注意力权重 → 信息瓶颈

根本原因

  1. Softmax 饱和: 深度网络中注意力 logits 方差累积增长,导致 softmax 进入饱和区
  2. 残差连接放大: 残差流的累积效应使深层注意力退化
  3. 训练不稳定性: 深层梯度消失使注意力无法学习有用模式

影响

  • 深层模型层数增加的边际收益递减
  • 长上下文信息的有效利用受限
  • 模型表达能力退化

缓解方案

  • 热处理 (Heat Treatment): 动态调整 softmax 温度
  • 熵正则化: 在训练目标中加入注意力熵正则项
  • 架构创新: MLP 替代方案(如 mamba-ssm)天然不受此影响

相关概念