2.3 KiB
2.3 KiB
title, domain, tags, sources
| title | domain | tags | sources | ||||||
|---|---|---|---|---|---|---|---|---|---|
| Manifold-Constrained Hyper-Connections (mHC) | Deep Learning / Network Architecture |
|
|
Manifold-Constrained Hyper-Connections (mHC)
类型: Concept (Tier 1 — Core) 来源: deepseek-v4-million-token-context, Xie et al. (2026)
定义
mHC(Manifold-Constrained Hyper-Connections)是对标准 Hyper-Connections(HC)的改进,通过将残差映射矩阵约束到 Birkhoff 多面体(双随机矩阵流形),解决深层堆叠时的数值不稳定问题。
核心机制
1. 标准 Hyper-Connections
标准 HC 将残差流的宽度从 ℝᵈ 扩展为 ℝⁿʰᶜˣᵈ,引入三个可学习的线性映射:
- 输入映射 Aₗ ∈ ℝ¹ˣⁿʰᶜ:将扩展的残差状态融合为层输入
- 残差变换 Bₗ ∈ ℝⁿʰᶜˣⁿʰᶜ:残差状态的跨流混合
- 输出映射 Cₗ ∈ ℝⁿʰᶜˣ¹:将层输出注入残差流
更新公式:Xₗ₊₁ = BₗXₗ + CₗFₗ(AₗXₗ)
2. 流形约束
mHC 的核心创新是将 Bₗ 约束到双随机矩阵流形 M(Birkhoff polytope):
M = {M ∈ ℝⁿˣⁿ | M1ₙ = 1ₙ, 1ₙᵀM = 1ₙᵀ, M ≥ 0}
这确保谱范数 ||Bₗ||₂ ≤ 1,使得残差变换是非扩张的(non-expansive),保障前后向传播的数值稳定性。
3. 动态参数化
三个映射参数通过输入动态生成,分解为动态分量和静态分量:
- 输入 Xₗ 先经 RMSNorm 归一化
- 动态分量由可学习权重矩阵生成
- 静态分量由可学习偏置提供
- 门控因子 α 初始化为小值
4. 约束施加
- Aₗ 和 Cₗ:通过 Sigmoid 确保非负性和有界性
- Bₗ:通过 Sinkhorn-Knopp 算法(20 次迭代)投影到双随机矩阵流形
与标准 HC 的对比
| 属性 | Hyper-Connections | mHC |
|---|---|---|
| 深层训练 | 数值不稳定 | 稳定 |
| 残差变换 | 无约束 | 双随机约束 |
| 谱范数 | 无界 | ≤1 |
| 适用性 | 浅层 | 深层堆叠 |
相关概念
- muon-optimizer — Muon 优化器(mHC 与 Muon 共同提升训练稳定性)
- depth-scaling-signal-degradation — 深度扩展中的信号退化
Last Updated: 2026-04-27