pytorch網絡預處理與后處理中基于numpy操作的GPU加速-創(chuàng)新互聯

背景

為江城等地區(qū)用戶提供了全套網頁設計制作服務，及江城網站建設行業(yè)解決方案。主營業(yè)務為成都網站制作、成都網站設計、江城網站設計，以傳統(tǒng)方式定制建設網站，并提供域名空間備案等一條龍服務，秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務。我們深信只要達到每一位用戶的要求，就會得到認可，從而選擇與我們長期合作。這樣，我們也可以走得更遠！

python腳本運行在服務器端的卷積神經網絡往往需要將圖片數據從cv2(numpy.ndarray)->tensor送入網絡，之后進行inference，再將結果從tensor-> numpy.ndarray的過程。

由于cv2讀取的數據存于內存中，以pytorch框架舉例，在把數據送入GPU前會產生如下的數據轉換：

GPU準備進行inference之前會判斷torch.cuda.FloatTensor是否已經處于顯存內，如果沒有的話會隱式調用內存與顯存中的數據轉存協(xié)議方法.async_copy()函數，將數據轉存至GPU顯存中，但該部分往往需要消耗大量時間。

對策：直接在GPU顯存中開辟空間

應用庫：cupy、dlpack

一、前處理

通常pytorch前處理如下：

# 內存分配torch.FloatTensor空間

batch_input = torch.zeros(len(image_list), 3, target_height, target_width)

for index in range(len(image_list)):

# image->numpy.ndarray

img = cv2.resize(image_list[index].copy(), (target_width, target_height))

# uint8->float32

t_img = np.asarray(img, np.float32)

#轉置

m_img = t_img.transpose((2, 0, 1))

#numpy.ndarray->torch.FloatTensor + 圖像正則化

n_img = transform(torch.from_numpy(m_img))

#組成batch data

batch_input[index, :] = n_img

# torch.FloatTensor-> torch.cuda.FloatTensor

batch_input.cuda()

如果將此batch送入GPU，則會發(fā)生如圖1所示的數據轉換。

現用cupy來取代numpy操作:

import cupy as cp

# GPU顯存分配cupy batch_data空間

batch_input = cp.zeros((len(image_list), 3, target_height, target_width), dtype=cp.float32)

for index in range(len(image_list)):

# image->cupy.ndarray

img = cv2.resize(image_list[index], (target_width, target_height))

# numpy.uint8 -> cupy.float32

t_img = cp.asarray(img, cp.float32)

# 轉置(cupy層面)

m_img = t_img.transpose((2, 0, 1))

# 圖像正則化

n_img = gpu_transform(m_img)

# 組成 batch data

batch_input[index, :] = n_img

# cupy.ndarray -> torch.cuda.FloatTensor

batch_data = from_dlpack(toDlpack(batch_input)).cuda()

此時過程轉換為：

說明幾點：

1.1由于cupy直接在GPU顯存中分配空間，不需要隱式調用.async_copy()將數據調入顯存內，可見時間對比：

隱式調用GPU前傳時間如下圖：

非隱式調用GPU前傳時間如下圖：

1.2 cupy.ndarray到torch.cuda.FloatTensor沒辦法直接轉換，需要中間轉換格式dlpack，具體轉換如下

rom cupy.core.dlpack import toDlpack

from cupy.core.dlpack import fromDlpack

from torch.utils.dlpack import to_dlpack

from torch.utils.dlpack import from_dlpack

import torch鄭州婦科醫(yī)院 http://www.sptdfk.com/

#tensor->cupy

cupy_data = fromDlpack(to_dlpack(tensor_data))

#cupy->tensor

tensor_data = from_dlpack(toDlpack(cupy_data))

1.3 在pytorch框架中，有的工程需要圖像正則化，有的不需要。當網絡前傳時若需要圖像正則化(一般為減均值與除方差)，一般選用的是torchvision.transform。但是該內置函數只接受CPU端的torch.FloatTensor，這就意味著若要使用內置transform函數，就需要將cupy GPU數據先轉成CPU的torch.FloatTensor，勢必會造成數據轉換資源浪費。重寫transform函數：

self.mean = cp.array([102.9801, 115.9465, 122.7717])

self.std = cp.array([1., 1., 1.])

def gpu_transform(self, img):

for index in range(img.shape[0]):

img[index,:] -= self.mean[index]

img[index, :] /= self.std[index]

return img

以上過程全部都在GPU內運行，時間幾乎可以忽略

二、后處理

此部分適用于分割網絡，即需要預先在GPU端分配生成的mask空間。通常做法分配torch.cuda.FloatTensor空間，隱式調用.async_copy()送入GPU，同樣會消耗很多時間。類似于前處理，可以利用cupy生成mask空間，再轉torch.cuda.FloatTensor。

mask_gpu= from_dlpack(toDlpack(cp.zeros((len(image_list), self.num_classes, ori_img_size[0], ori_img_size[1]), dtype=cp.float32))).cuda()

pytorch分配mask時間

cupy分配mask時間

三、cupy與常規(guī)前后處理時間對比

另外有需要云服務器可以了解下創(chuàng)新互聯cdcxhl.cn，海內外云服務器15元起步，三天無理由+7*72小時售后在線，公司持有idc許可證，提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應用場景需求。

網站題目：pytorch網絡預處理與后處理中基于numpy操作的GPU加速-創(chuàng)新互聯
鏈接URL：http://chinadenli.net/article38/pgssp.html

成都網站建設公司_創(chuàng)新互聯，為您提供App設計、定制開發(fā)、建站公司、網站維護、品牌網站建設、搜索引擎優(yōu)化

聲明：本網站發(fā)布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創(chuàng)新互聯

猜你還喜歡下面的內容

欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

pytorch網絡預處理與后處理中基于numpy操作的GPU加速-創(chuàng)新互聯