開發 Python/PyTorch 多執行緒程式在輝達 nVidia CUDA 環境下

發佈於程式

2024/11/09 更新2024/11/06 發佈閱讀 7 分鐘

在安裝實體具有多核 GPU 的環境下，可以透過 Python 「多執行緒的」程式，讓 CPU 及 GPU 依照特性，各自同時進行運算。通常會在 CPU 端處理各種資料處理及人機界面的管理，而在 GPU 端則進行大量數值運算的工作；由於這兩方面的工作都需要同時間進行，因此常會利用「多執行緒」(Thread) 的方式來進行。

CPU 端多執行緒程式

假定我們同時在 CPU 端及 GPU 端都要進行多次的矩陣相乘的運算，那麼在 CPU 端的執行緒函數可以這樣撰寫。

import threading
import numpy as np
class cpuThread(threading.Thread):
    def __init__(self, x,y,count):
        threading.Thread.__init__(self)
        self.x=x
        self.y=y
        self.ans=x
        self.count=count
    def run(self):
        for i in range(self.count):
            self.ans=np.matmul(self.x,self.y)

接下來，我們單獨看一下在 CPU 端所花費的執行時間，

import time
np.random.seed(0)
matrixA=np.random.rand(1000,1000).astype('float32')
matrixB=np.random.rand(1000,1000).astype('float32')
beginTime=time.time()
runCPU=cpuThread(matrixA,matrixB,1000)
runCPU.start()
runCPU.join()

# 印出計算所花的時間
print('CPU execution time:',time.time()-beginTime)

GPU 端多執行緒程式

另外，在 GPU 端的執行緒則類似於 CPU 的執行緒，主要的差別則是由「numpy」改用「torch」函式庫。

import torch
class gpuThread(threading.Thread):
    def __init__(self, x,y,count):
        threading.Thread.__init__(self)
        self.x=x
        self.y=y
        self.count=count
        self.ans=x
    def run(self):
        for i in range(self.count):
            self.ans=torch.matmul(self.x,self.y)

以及單獨在 GPU 端所花費的時間。

np.random.seed(0)
matrixA=np.random.rand(1000,1000).astype('float32')
matrixB=np.random.rand(1000,1000).astype('float32')
tensorA=torch.tensor(matrixA).to(device)
tensorB=torch.tensor(matrixB).to(device)

beginTime=time.time()
runGPU=gpuThread(tensorA,tensorB,1000)
runGPU.start()
runGPU.join()
# 等所有 GPU 都計算完畢
torch.cuda.synchronize()
# 印出計算所花的時間
print('GPU execution time:',time.time()-beginTime)

在 Jetson Orin Nano 的機器上，GPU 大約是花費 2~3 秒的時間，而 CPU 端相同的計算大約會花費到 15 秒以上的時間。

同時執行 CPU 端及 GPU 端多執行緒

當然，也可以合併以上兩段程式，同時間在 CPU 及 GPU 端來執行，然後透過「jtop」觀查一下在 Jetson Orin Nano 裝置上計算的負荷如何變化。

np.random.seed(0)
matrixA=np.random.rand(1000,1000).astype('float32')
matrixB=np.random.rand(1000,1000).astype('float32')
tensorA=torch.tensor(matrixA).to(device)
tensorB=torch.tensor(matrixB).to(device)

beginTime=time.time()
runCPU=cpuThread(matrixA,matrixB,1000)
runGPU=gpuThread(tensorA,tensorB,1000)
runCPU.start()
runGPU.start()
runCPU.join()
runGPU.join()
# 等所有 GPU 都計算完畢
torch.cuda.synchronize()
# 印出計算所花的時間
print('CPU combined with GPU execution time:',time.time()-beginTime)

小結語

由於 CPU 及 GPU 的特性以及對不同資料型態的處理能力不同，透過「多執行緒」的程式開發分別對不同資訊在不同晶片機制的邏輯處理，可以充分地應用到算力的資源；進一步開發即時人工智慧相關的程式及研究。

留言

留言分享你的想法！

甘果的沙龍

4會員

28內容數

作者從國內主要的半導體公司退休，重回校園唸書；開始第三人生。分享退休投資規劃、科技產業經驗以及校園學習點滴。

甘果的沙龍的其他內容

2025/04/26

在 iMac mini 上設定 Python 虛擬環境並與 Jupyter Notebook 聯動

本文章說明如何在已安裝 Python 3.9 的 iMac mini 上設定 Python 虛擬環境，以及如何使用 venv 工具、安裝常用函式庫（如 numpy、pyTorch 等），並設定 Jupyter 連動不同 Python 虛擬環境。

2025/04/26

在 iMac mini 上設定 Python 虛擬環境並與 Jupyter Notebook 聯動

2025/04/19

將iMac mini M4 設定為遠端Jupyter Notebook伺服器，使用iPad進行程式設計

這篇文章說明如何在iMac mini M4上設定Jupyter Notebook作為遠端程式設計伺服器，方便使用iPad進行程式開發。文章涵蓋Jupyter Notebook的安裝、設定遠端連線以及建立可執行的shell script，讓伺服器能持續運作。

2025/04/19

將iMac mini M4 設定為遠端Jupyter Notebook伺服器，使用iPad進行程式設計

2025/04/10

iMac mini M4：低成本高效能的 AI 程式伺服器

本文介紹如何將蘋果iMac mini作為CP值最高的人工智慧程式設計伺服器，搭配 iPad 進行遠端程式設計工作。文章說明瞭啟動遠端服務、連接SSH伺服器、使用外接硬碟及連接FTP伺服器等步驟，並推薦了相關應用 app。

2025/04/10

iMac mini M4：低成本高效能的 AI 程式伺服器

看更多

你可能也想看

Chloe小窩

手作人必看｜用蝦皮分潤計畫把興趣變新收入渠道

在小小的租屋房間裡，透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材，打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖，並推薦蝦皮分潤計畫。

#手作#黏土手作#輕黏土

2025/09/09

Chloe小窩

手作人必看｜用蝦皮分潤計畫把興趣變新收入渠道

#手作#黏土手作#輕黏土

2025/09/09

小蝸慢慢爬

蝦皮分潤計畫-小豬與小蝸的婚姻神隊友

小蝸和小豬因購物習慣不同常起衝突，直到發現蝦皮分潤計畫，讓小豬的購物愛好產生價值，也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異？讓蝦皮分潤計畫成為你們的神隊友吧！

2025/09/09

2025/09/09

CUDA（Compute Unified Device Architecture）是由 NVIDIA公司開發的並行計算平台和程式設計模型，主要用於利用 GPU（圖形處理器）的強大運算能力來加速通用計算任務。以下是其核心概念與應用：一、核心概念 GPU 加速計算：傳統上 G

2025/02/16

2025/02/16

CUDA Core（通用計算單元）是 NVIDIA GPU（圖形處理器）中的基本計算單元，專門設計用來執行並行計算任務。它們是 NVIDIA CUDA 平台的核心部分，用來處理圖形渲染和一般計算任務，特別是那些需要大規模數據運算的應用，例如遊戲圖形、科學模擬和人工智慧（AI）。 1. CUD

2024/11/17

2024/11/17

開發 Python/PyTorch 多執行緒程式在輝達 nVidia CUDA 環境下

本文說明在安裝實體具有多核 GPU 的環境下，可以透過 Python 「多執行緒的」程式，讓 CPU 及 GPU 依照特性，各自同時進行運算，得到最好的算力配置。

#python#Pytorch#nvidia

2024/11/06

甘果的沙龍

開發 Python/PyTorch 多執行緒程式在輝達 nVidia CUDA 環境下

本文說明在安裝實體具有多核 GPU 的環境下，可以透過 Python 「多執行緒的」程式，讓 CPU 及 GPU 依照特性，各自同時進行運算，得到最好的算力配置。

#python#Pytorch#nvidia

2024/11/06

Chih-Yuan Yip的沙龍

人工智慧開源庫 PyTorch 2.4 發布

PyTorch 是一個開源的 Python 機器學習庫，基於 Torch 庫，底層由 C++ 實現，應用於人工智慧領域，如電腦視覺和自然語言處理等。 PyTorch 2.4 引入了多項新功能和改進，包括支援 Python 3.12、AOTInductor 凍結功能、新的高階 Python 自訂運算

#PyTorch#Pytorch#pytorch

2024/08/09

Chih-Yuan Yip的沙龍

人工智慧開源庫 PyTorch 2.4 發布

#PyTorch#Pytorch#pytorch

2024/08/09

真師傅的AI沙龍

NPU（神經網路處理器）目前的全球市場佔有率僅有 8% 是用在哪些方面? 誰在用呢?

神經處理單元（NPU）主要用於加速人工智慧（AI）和機器學習（ML）任務。以下是一些主要的應用領域和使用者： AI和機器學習：NPU是人工智慧和機器學習領域的直接受益者。這些技術依賴數據而蓬勃發展，NPU擅長消化和解釋大量資料集，使機器能夠以前所未有的速度學習。智慧型設備和物聯網：在智慧型

#NPU是用在哪些方面#誰在用NPU

2024/07/18

真師傅的AI沙龍

NPU（神經網路處理器）目前的全球市場佔有率僅有 8% 是用在哪些方面? 誰在用呢?

#NPU是用在哪些方面#誰在用NPU

2024/07/18

Kaori的碗豆園

[007-1.1]NVIDIA在推論式AI半導體方面面臨挑戰：CUDA既為優勢也為劣勢

NVIDIA、Intel、Tenstorrent和RISC-V在AI半導體領域的競爭和合作。Intel在AI領域推出了一系列產品，Tenstorrent和Rapidus合作開發新技術，而RISC-V開放源碼指令集架構也受到了廣泛關注。這些內容都展示了AI半導體市場的技術革新和競爭激烈的情況。

#Intel#NVIDIA#三星電子

2024/06/11

Kaori的碗豆園

[007-1.1]NVIDIA在推論式AI半導體方面面臨挑戰：CUDA既為優勢也為劣勢

#Intel#NVIDIA#三星電子

2024/06/11

期貨選擇權交易紀錄心得交流

NVIDIA 黃仁勳 - AI演講即時摘要_元大證券

NVIDIA 黃仁勳 - AI人工智慧時代如何帶動全球新產業革命（個人紀錄用） 🇺🇸Omniverse 就是未來集大成，而加速運算、人工智慧就是兩個最重要的技術核心 🇺🇸CPU效能的擴充速度正在大幅降低，提出「運算通膨」概念

#NVIDIA#AI人工智慧#革命

2024/06/03

期貨選擇權交易紀錄心得交流

NVIDIA 黃仁勳 - AI演講即時摘要_元大證券

#NVIDIA#AI人工智慧#革命

2024/06/03

網路安全停看聽-安啦的沙龍

【網路安全停看聽】科普GPU與CPU：探索電腦世界的引擎

這是我最近在『網路安全停看聽』Podcast企劃的一集，文末會提供podcast單集連結，想讓眼睛休息的格友們也可點選收聽喔! 今年NVIDIA輝達這家公司在世界掀起了旋風，不管你之前有沒有購買這家公司的股票，當執行長黃仁勳先生訪台，台灣各家媒體爭相報導下，你總應該注意到這家厲害的公司了。Go

#處理器#GPU#CPU

2023/11/01

網路安全停看聽-安啦的沙龍

【網路安全停看聽】科普GPU與CPU：探索電腦世界的引擎

#處理器#GPU#CPU

2023/11/01

小小工程師

筆記：為何GPU，在AI的運算為何佔比如此大？

(2023/4/16) 聽完‎在 Apple Podcasts 上的《財報狗 - 掌握台股美股時事議題》：205.【財經時事放大鏡】NVIDIA GTC 與美國晶片法 Q：為何語言要大量訓練深度學習不是用擅長複雜運算／電晶體密度也較高的CPU? 其實也不了解GPU/CPU的差異關鍵在哪? Ａ：(f

#GPU#NVIDIA

2023/04/18

小小工程師

筆記：為何GPU，在AI的運算為何佔比如此大？

#GPU#NVIDIA

2023/04/18

露西的沙龍

「等一下！等我一下！」

「下好離手，說一句話之前不好決定，但說出口就一定是這樣。」Andy說。我都說，Andy有三顆CPU。中央處理器（英語：CentralProcessingUnit，縮寫：CPU）是電腦的主要裝置之一，功能主要是解釋電腦指令以及處理電腦軟體中的資料。電腦的可程式化性主要是指對中央處理器的編程。 E

2019/12/15

露西的沙龍

「等一下！等我一下！」

2019/12/15

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News