44 lines
1.4 KiB
Markdown
44 lines
1.4 KiB
Markdown
---
|
||
title: "Neuron Pairing"
|
||
created: 2026-05-15
|
||
updated: 2026-05-15
|
||
type: concept
|
||
tags: [efficiency, synchronization, subsampling]
|
||
sources: [raw/papers/darlow-ctm-2025.md]
|
||
---
|
||
|
||
# Neuron Pairing
|
||
|
||
**Neuron Pairing** 是 CTM 中用于降低 [[neural-synchronization|同步矩阵]] 计算开销的子采样策略。
|
||
|
||
## 动机
|
||
|
||
同步矩阵 S^t = Z^t·(Z^t)^⊺ ∈ R^{D×D} 的规模是 O(D²),对于典型的 D(数百到数千)规模过大,无法直接用于下游。
|
||
|
||
## 策略
|
||
|
||
在训练开始时,随机选择两组神经元对并固定:
|
||
- **D_out 对** → 输出同步表示 S^t_out → 投影到 y_t(预测)
|
||
- **D_action 对** → 动作同步表示 S^t_action → 投影到 q_t(注意力查询)
|
||
|
||
此外还保留:
|
||
- **D_self 对** → 对角线元素 (i,i),捕获单个神经元的自同步(即能量)
|
||
|
||
## 设计考量
|
||
|
||
- **固定对**:在整个训练中保持不变,使投影矩阵 W_out、W_in 可学习
|
||
- **随机选择**:避免偏差,确保多样的神经元交互被采样
|
||
- **恢复快照依赖**:对角线对 (i,i) 保留了类似"快照"的表示能力
|
||
|
||
## 效率 vs 表达力权衡
|
||
|
||
| 维度 | 完整 S^t | Neuron Pairing |
|
||
|------|---------|----------------|
|
||
| 参数量 | O(D²) | O(D × (D_out + D_action)) |
|
||
| 信息量 | 所有对的相关性 | 子采样对的相关性 |
|
||
| 训练稳定性 | 投影矩阵过大 | 可控维度 |
|
||
|
||
## 来源
|
||
|
||
- [[darlow-ctm-2025|CTM 论文]]
|