Files
myWiki/concepts/manifold-constrained-hyper-connections.md

62 lines
2.3 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
title: "Manifold-Constrained Hyper-Connections (mHC)"
domain: "Deep Learning / Network Architecture"
tags: [architecture, residual-connections, training-stability, transformer]
sources: [[deepseek-v4-million-token-context]]
---
# Manifold-Constrained Hyper-Connections (mHC)
> **类型**: Concept (Tier 1 — Core)
> **来源**: [[deepseek-v4-million-token-context]], Xie et al. (2026)
## 定义
mHCManifold-Constrained Hyper-Connections是对标准 Hyper-ConnectionsHC的改进通过将残差映射矩阵约束到 Birkhoff 多面体(双随机矩阵流形),解决深层堆叠时的数值不稳定问题。
## 核心机制
### 1. 标准 Hyper-Connections
标准 HC 将残差流的宽度从 ℝᵈ 扩展为 ℝⁿʰᶜˣᵈ,引入三个可学习的线性映射:
- **输入映射 Aₗ** ∈ ℝ¹ˣⁿʰᶜ:将扩展的残差状态融合为层输入
- **残差变换 Bₗ** ∈ ℝⁿʰᶜˣⁿʰᶜ:残差状态的跨流混合
- **输出映射 Cₗ** ∈ ℝⁿʰᶜˣ¹:将层输出注入残差流
更新公式Xₗ₊₁ = BₗXₗ + CₗFₗ(AₗXₗ)
### 2. 流形约束
mHC 的核心创新是将 Bₗ 约束到双随机矩阵流形 MBirkhoff polytope
```
M = {M ∈ ℝⁿˣⁿ | M1ₙ = 1ₙ, 1ₙᵀM = 1ₙᵀ, M ≥ 0}
```
这确保谱范数 ||Bₗ||₂ ≤ 1使得残差变换是**非扩张的**non-expansive保障前后向传播的数值稳定性。
### 3. 动态参数化
三个映射参数通过输入动态生成,分解为动态分量和静态分量:
- 输入 Xₗ 先经 RMSNorm 归一化
- 动态分量由可学习权重矩阵生成
- 静态分量由可学习偏置提供
- 门控因子 α 初始化为小值
### 4. 约束施加
- Aₗ 和 Cₗ通过 Sigmoid 确保非负性和有界性
- Bₗ通过 **Sinkhorn-Knopp 算法**20 次迭代)投影到双随机矩阵流形
## 与标准 HC 的对比
| 属性 | Hyper-Connections | mHC |
|------|-------------------|-----|
| 深层训练 | 数值不稳定 | 稳定 |
| 残差变换 | 无约束 | 双随机约束 |
| 谱范数 | 无界 | ≤1 |
| 适用性 | 浅层 | 深层堆叠 |
## 相关概念
- [[muon-optimizer]] — Muon 优化器mHC 与 Muon 共同提升训练稳定性)
- [[depth-scaling-signal-degradation]] — 深度扩展中的信号退化
---
*Last Updated: 2026-04-27*