1.6 KiB
1.6 KiB
title, created, updated, type, tags, sources
| title | created | updated | type | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| DDCAdam (Dead-Direction-Calibrated Adam) | 2026-06-10 | 2026-06-10 | concept |
|
|
DDCAdam (Dead-Direction-Calibrated Adam)
DDCAdam 是 dead-directions-geometric-singular-learning 提出的 G-等变 Adam 族预条件子,解决标准 Adam 无法保持 loss 对称性的问题。
动机:Gauge 商定理
在 G-不变度量上的梯度流下,dead-direction 的速率可传递到商空间 Theta/G:
- SGD 符合条件(其隐式正则化保持对称性)
- 标准 Adam 不符合——其逐坐标自适应破坏了 G-等变性
DDCAdam 的设计
使 Adam 的预条件子与 loss 对称群 G 兼容:
- 识别网络的对称性结构(缩放、置换等)
- 构造保持 G-等变性的自适应学习率
- 在 dead direction 分析中正确传递速率
为什么重要
- 标准 Adam 会"干扰"奇异几何——破坏了 dead direction 的自然结构
- DDCAdam 保留了训练轨迹中的奇异几何信息
- 使 watanabe-triple的轨迹读取成为可能
实践建议
如果使用 Adam 训练网络,且希望进行 SLT 分析:
- 切换到 DDCAdam(保持 G-等变性)
- 或使用 SGD + momentum
- 不要使用标准 Adam——它会破坏奇异几何信号