20260617:目前有914 页
This commit is contained in:
45
concepts/ddcadam.md
Normal file
45
concepts/ddcadam.md
Normal file
@@ -0,0 +1,45 @@
|
||||
---
|
||||
title: "DDCAdam (Dead-Direction-Calibrated Adam)"
|
||||
created: 2026-06-10
|
||||
updated: 2026-06-10
|
||||
type: concept
|
||||
tags: ["deep-learning", "optimization", "adam", "gauge-symmetry", "fisher-metric"]
|
||||
sources: ["[[dead-directions-geometric-singular-learning]]"]
|
||||
---
|
||||
|
||||
# DDCAdam (Dead-Direction-Calibrated Adam)
|
||||
|
||||
**DDCAdam** 是 [[dead-directions-geometric-singular-learning|Shirodkar (2026)]] 提出的 G-等变 Adam 族预条件子,解决标准 Adam 无法保持 loss 对称性的问题。
|
||||
|
||||
## 动机:Gauge 商定理
|
||||
|
||||
在 G-不变度量上的梯度流下,[[dead-direction|dead direction]] 的速率可传递到商空间 Theta/G:
|
||||
- **SGD** 符合条件(其隐式正则化保持对称性)
|
||||
- **标准 Adam 不符合**——其逐坐标自适应破坏了 G-等变性
|
||||
|
||||
## DDCAdam 的设计
|
||||
|
||||
使 Adam 的预条件子与 loss 对称群 G 兼容:
|
||||
|
||||
1. 识别网络的对称性结构(缩放、置换等)
|
||||
2. 构造保持 G-等变性的自适应学习率
|
||||
3. 在 dead direction 分析中正确传递速率
|
||||
|
||||
## 为什么重要
|
||||
|
||||
- 标准 Adam 会"干扰"奇异几何——破坏了 dead direction 的自然结构
|
||||
- DDCAdam 保留了训练轨迹中的奇异几何信息
|
||||
- 使 [[watanabe-triple|Watanabe 三元组]]的轨迹读取成为可能
|
||||
|
||||
## 实践建议
|
||||
|
||||
如果使用 Adam 训练网络,且希望进行 SLT 分析:
|
||||
1. 切换到 DDCAdam(保持 G-等变性)
|
||||
2. 或使用 SGD + momentum
|
||||
3. **不要**使用标准 Adam——它会破坏奇异几何信号
|
||||
|
||||
## 参考
|
||||
- [[dead-directions-geometric-singular-learning|Dead Directions]]
|
||||
- [[dead-direction|Dead Direction]]
|
||||
- [[watanabe-triple|Watanabe's Triple]]
|
||||
- [[fisher-information-metric|Fisher Information Metric]]
|
||||
Reference in New Issue
Block a user