Files
myWiki/concepts/ddcadam.md

1.6 KiB
Raw Blame History

title, created, updated, type, tags, sources
title created updated type tags sources
DDCAdam (Dead-Direction-Calibrated Adam) 2026-06-10 2026-06-10 concept
deep-learning
optimization
adam
gauge-symmetry
fisher-metric
dead-directions-geometric-singular-learning

DDCAdam (Dead-Direction-Calibrated Adam)

DDCAdamdead-directions-geometric-singular-learning 提出的 G-等变 Adam 族预条件子,解决标准 Adam 无法保持 loss 对称性的问题。

动机Gauge 商定理

在 G-不变度量上的梯度流下,dead-direction 的速率可传递到商空间 Theta/G

  • SGD 符合条件(其隐式正则化保持对称性)
  • 标准 Adam 不符合——其逐坐标自适应破坏了 G-等变性

DDCAdam 的设计

使 Adam 的预条件子与 loss 对称群 G 兼容:

  1. 识别网络的对称性结构(缩放、置换等)
  2. 构造保持 G-等变性的自适应学习率
  3. 在 dead direction 分析中正确传递速率

为什么重要

  • 标准 Adam 会"干扰"奇异几何——破坏了 dead direction 的自然结构
  • DDCAdam 保留了训练轨迹中的奇异几何信息
  • 使 watanabe-triple的轨迹读取成为可能

实践建议

如果使用 Adam 训练网络,且希望进行 SLT 分析:

  1. 切换到 DDCAdam保持 G-等变性)
  2. 或使用 SGD + momentum
  3. 不要使用标准 Adam——它会破坏奇异几何信号

参考