SidneyZhang/myWiki

Files

Sidney Zhang 6021dea160

20260625:很多新内容

2026-06-25 14:08:47 +08:00

1.8 KiB

Raw Blame History

title, created, updated, type, tags, sources

title

created

updated

type

tags

sources

Memory-Compute Decoupling

2026-06-25

2026-06-25

concept

infrastructure

efficiency

memory

prefetching

engram-conditional-memory-2026

Memory-Compute Decoupling

Memory-Compute Decoupling 是 Engram 提出的基础设施感知设计原则：通过确定性寻址将大型嵌入表从 GPU 内存卸载到主机内存，运行时预取重叠通信与计算。

动机

MoE 的动态路由导致：

专家选择依赖当前 token 的 hidden state
无法预知下一个 token 会激活哪个专家
必须将所有专家参数保留在 GPU 显存中

Engram 的确定性哈希提供了相反的属性。

机制

确定性寻址

N-gram 嵌入的索引由哈希函数 𝜑_{n,k}(g_{t,n}) 确定
仅依赖输入 token，不依赖 hidden state
→ 可以提前预取下一个 token 所需的嵌入向量

内存层次

GPU HBM:    常驻骨干网络（Attention + MoE）
Host Memory: 大容量 Engram 嵌入表
↓
运行时：预取线程提前将下一批嵌入从 Host → GPU

开销

100B 参数嵌入表卸载到主机内存
延迟开销 < 3%
通信与计算重叠

意义

突破 GPU 内存墙：嵌入表大小不再受 GPU HBM 限制
激进参数扩展：可以部署远超 GPU 容量的记忆模块
可预测扩展：记忆容量增长不带来计算开销增长

与 MoE Offloading 的对比

维度	MoE Offloading	Engram Decoupling
寻址	动态路由（依赖 hidden state）	确定性哈希（仅依赖 token ID）
预取可能性	困难（不可预知）	简单（提前知道索引）
延迟影响	显著	<3%

参考