如何專業地分析GPU VRAM使用: Nsight 快速上手

閱讀時間約 5 分鐘

(詳細API參考: Advanced Reference)

使用GPU是AI研究、工程中不可或缺的一部份, VRAM 使用對於深度學習和高性能計算領域至關重要。有效分析和管理 VRAM 使用能幫助我們提升模型效率,避免不必要的記憶體(內存)溢出問題。

本文將帶你快速上手 NVIDIA 的 Nsight System 工具,並結合 PyTorch 框架,深入了解如何專業地分析 GPU VRAM 使用。


第一步:安裝 Nsight 工具

NVIDIA 提供了多種 Nsight 工具,其中 Nsight Systems用於系統級的性能分析,而 Nsight Compute 用於內核級的性能細節分析。以下是安裝步驟:


  1. 確認、安裝 NVIDIA 驅動版本
  2. 安裝 Nsight Systems: 前往 NVIDIA Nsight 官網下載適合你操作系統的版本,並按照指引安裝。


第二步:基於 PyTorch 的 VRAM 使用分析


通常可以使用PyTorch 提供的 API 查看 VRAM 的使用情況:

import torch

assert torch.cuda.is_available()

print(f"Allocated Memory: {torch.cuda.memory_allocated()} bytes")

print(f"Cached Memory: {torch.cuda.memory_reserved()} bytes")


然而,筆者不少次遇到此方法無法正確反映(通常是報少了)實際用量的狀況,通常發生於較複雜的腳本,因此,我們需要搭配Nsight更深入準確的研究

import torch

from torch.cuda import nvtx

model = torch.nn.Linear(100, 10).cuda()

data = torch.randn(1000, 100).cuda()

nvtx.range_push("Forward Pass") # 設定標籤

output = model(data)

nvtx.range_pop() # 結束標籤

nvtx.range_push("Backward Pass") # 設定第二個標籤

output.sum().backward()

nvtx.range_pop() # 結束標籤


執行此代碼時,Nsight 工具會捕捉到 `Forward Pass` 和 `Backward Pass` 的 NVTX 標記,幫助分析哪部分代碼消耗了更多的 VRAM 或計算資源。


接下來,執行

nsys profile -w true -t cuda,nvtx,osrt,cudnn,cublas -s cpu  --capture-range=cudaProfilerApi  --cuda-memory-usage=true --cudabacktrace=true --capture-range-end=stop --force-overwrite=true -x true -o profiling python ...


程式跑完後,會產生profiling.nsys-rep這個檔案,此時執行

nsys-ui profiling.nsys-rep即可開啟UI觀察

(如果是windows,可以安裝Nvidia Nsight System應用程式,並拖曳檔案開啟)


raw-image



通過結合 Nsight 系列工具與 PyTorch 的內置分析 API,我們可以全面了解 GPU 的 VRAM 使用狀況,幫助優化深度學習模型的性能。從基礎的 torch.cuda ,到 NVTX 的範圍標記,再到 Nsight 系統和內核級的深入分析,每一步都能幫助我們更專業地管理 GPU 資源。


1會員
21內容數
留言0
查看全部
發表第一個留言支持創作者!
ECOE的沙龍 的其他內容
(不想花時間爬蟲嗎? 點我兩杯飲料錢直接購買、下載整理好的csv) 要分析股市,取得資料是首要的一步。最簡單的方法是從現有網站下載歷史數據的CSV檔案,例如: Yahoo Finance:台灣版提供豐富的資訊,國際版還可以直接下載歷史數據的CSV檔。 台灣證交所:擁有最全面的資料,但網頁結
當需要登入github、bitbucket、anydesk等需要2FA的應用時,會需要2FA進行登入驗證。如果有想讓多台手機都可以獲取OTP該怎麼做呢? 很簡單,只要在新增2FA裝置要掃描QR時,用所有的手機都掃過一次,之後再輸入一次OTP即可
當創作者想把自己的著作出版成電子書,常常要把Word檔案轉成EPUB檔案,再上傳電子書平台。但是如何把撰寫文章使用的word檔案,轉換成EPUB檔案呢?傳統上會需要繳交數千元的排版費用給出版商或專業人士排版。 難道沒有甚麼便宜甚至免費、好用的方法嗎? Google可以搜尋到不同的工具,但是筆者親測
在現代網站中,HTTPS(HTTP Secure)已成為保護用戶資料和確保網站安全的重要標準。使用 Let's Encrypt 免費的 SSL 憑證,結合 Nginx 網頁伺服器,我們可以快速將網站配置為 HTTPS,並自動將 HTTP 流量重定向到 HTTPS。本教程將介紹如何安裝 Nginx
隨著人工智慧技術的快速發展,ChatGPT 這類的語言模型已成為許多人的工具,無論是用於創作、學習,還是解決各種日常問題。然而,許多人也會有一個疑問:使用 ChatGPT 划算嗎?本文將從多個角度來探討這個問題。 ChatGPT 的價值 1. 效率提升 ChatGPT 能夠幫助用戶快速產生想法
(不想花時間爬蟲嗎? 點我兩杯飲料錢直接購買、下載整理好的csv) 要分析股市,取得資料是首要的一步。最簡單的方法是從現有網站下載歷史數據的CSV檔案,例如: Yahoo Finance:台灣版提供豐富的資訊,國際版還可以直接下載歷史數據的CSV檔。 台灣證交所:擁有最全面的資料,但網頁結
當需要登入github、bitbucket、anydesk等需要2FA的應用時,會需要2FA進行登入驗證。如果有想讓多台手機都可以獲取OTP該怎麼做呢? 很簡單,只要在新增2FA裝置要掃描QR時,用所有的手機都掃過一次,之後再輸入一次OTP即可
當創作者想把自己的著作出版成電子書,常常要把Word檔案轉成EPUB檔案,再上傳電子書平台。但是如何把撰寫文章使用的word檔案,轉換成EPUB檔案呢?傳統上會需要繳交數千元的排版費用給出版商或專業人士排版。 難道沒有甚麼便宜甚至免費、好用的方法嗎? Google可以搜尋到不同的工具,但是筆者親測
在現代網站中,HTTPS(HTTP Secure)已成為保護用戶資料和確保網站安全的重要標準。使用 Let's Encrypt 免費的 SSL 憑證,結合 Nginx 網頁伺服器,我們可以快速將網站配置為 HTTPS,並自動將 HTTP 流量重定向到 HTTPS。本教程將介紹如何安裝 Nginx
隨著人工智慧技術的快速發展,ChatGPT 這類的語言模型已成為許多人的工具,無論是用於創作、學習,還是解決各種日常問題。然而,許多人也會有一個疑問:使用 ChatGPT 划算嗎?本文將從多個角度來探討這個問題。 ChatGPT 的價值 1. 效率提升 ChatGPT 能夠幫助用戶快速產生想法
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
Nvidia(輝達)是一家全球領先的圖形處理單元(GPU)製造商,近期在台灣和國際掀起一股旋風。 其成長歷程展示了技術創新和市場戰略的成功結合。以下是Nvidia企業成長的歷程簡述: 早期階段(1993-2000) Nvidia於1993年由黃仁勳(Jensen Huang)、Ch
Thumbnail
可能包含敏感內容
了解NVIDIA如何通過其廣泛的供應鏈網絡推動AI技術的創新。NVIDIA與的上下游廠商? 這些合作夥伴在NVIDIA的技術發展中扮演著至關重要的角色,共同推動了AI和計算技術的前沿發展
Thumbnail
NVIDIA(英偉達)作為全球領先的圖形處理器(GPU)製造商,不僅在遊戲市場佔有重要地位,還在專業圖形和高性能計算領域擁有強大的產品線。
Thumbnail
NVIDIA的新目標:AI晶圓代工 NVIDIA宣布,他們的目標是成為支援企業開發AI應用程式的「AI晶圓代工」。這與接受客戶委託製造半導體的代工廠相似,NVIDIA將提供技術、專業知識和基礎設施,幫助實現AI應用程式。
Thumbnail
NVIDIA的新目標是成為支援企業開發AI應用程式的「AI晶圓代工」,提供技術、專業知識和基礎設施,幫助實現AI應用。具體而言,NVIDIA將提供GPU、自主CPU「Grace」、超級計算機及其硬體,還有軟體和工具,以滿足客戶需求。
Thumbnail
NVIDIA、Intel、Tenstorrent和RISC-V在AI半導體領域的競爭和合作。Intel在AI領域推出了一系列產品,Tenstorrent和Rapidus合作開發新技術,而RISC-V開放源碼指令集架構也受到了廣泛關注。這些內容都展示了AI半導體市場的技術革新和競爭激烈的情況。
Thumbnail
這篇文章探討了NVIDIA在推論式AI半導體市場的挑戰,以及介紹了Intel在AI領域的強化舉措。文章中提到了新興企業可能有機會取代現有市場領導者,並討論了RISC-V技術在AI半導體市場的應用和其他相關動向。
Thumbnail
NVIDIA的CEO黃仁勳來到台北,發表了一場關於AI(人工智慧)和加速計算的精彩演講。我決定把這場演講的精華部分記錄下來,方便日後回顧和分享。 1. NVIDIA的技術創新 黃仁勳開場時提到,NVIDIA的GPU不僅僅是為了遊戲而設計的。他說:「我們的GPU還能用在AI和數據分析等領域...
Thumbnail
科技巨擘聯手推進生成式AI發展 開創人工智慧新時代 在生成式人工智慧(Generative AI)的浪潮中,雲端運算龍頭AWS和晶片巨擘NVIDIA攜手合作,推出一系列革命性的基礎設施、軟體和服務。
Thumbnail
根據高盛最近的研究報告,未來的個人電腦和移動設備將搭載更多由AI增強後的應用程式,如AI增強、安全性提升和運算能力強化。 消費性電子股票組合<GSXUPCAI>也顯示出潛力,並列出了成分股以及其權重。
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
Nvidia(輝達)是一家全球領先的圖形處理單元(GPU)製造商,近期在台灣和國際掀起一股旋風。 其成長歷程展示了技術創新和市場戰略的成功結合。以下是Nvidia企業成長的歷程簡述: 早期階段(1993-2000) Nvidia於1993年由黃仁勳(Jensen Huang)、Ch
Thumbnail
可能包含敏感內容
了解NVIDIA如何通過其廣泛的供應鏈網絡推動AI技術的創新。NVIDIA與的上下游廠商? 這些合作夥伴在NVIDIA的技術發展中扮演著至關重要的角色,共同推動了AI和計算技術的前沿發展
Thumbnail
NVIDIA(英偉達)作為全球領先的圖形處理器(GPU)製造商,不僅在遊戲市場佔有重要地位,還在專業圖形和高性能計算領域擁有強大的產品線。
Thumbnail
NVIDIA的新目標:AI晶圓代工 NVIDIA宣布,他們的目標是成為支援企業開發AI應用程式的「AI晶圓代工」。這與接受客戶委託製造半導體的代工廠相似,NVIDIA將提供技術、專業知識和基礎設施,幫助實現AI應用程式。
Thumbnail
NVIDIA的新目標是成為支援企業開發AI應用程式的「AI晶圓代工」,提供技術、專業知識和基礎設施,幫助實現AI應用。具體而言,NVIDIA將提供GPU、自主CPU「Grace」、超級計算機及其硬體,還有軟體和工具,以滿足客戶需求。
Thumbnail
NVIDIA、Intel、Tenstorrent和RISC-V在AI半導體領域的競爭和合作。Intel在AI領域推出了一系列產品,Tenstorrent和Rapidus合作開發新技術,而RISC-V開放源碼指令集架構也受到了廣泛關注。這些內容都展示了AI半導體市場的技術革新和競爭激烈的情況。
Thumbnail
這篇文章探討了NVIDIA在推論式AI半導體市場的挑戰,以及介紹了Intel在AI領域的強化舉措。文章中提到了新興企業可能有機會取代現有市場領導者,並討論了RISC-V技術在AI半導體市場的應用和其他相關動向。
Thumbnail
NVIDIA的CEO黃仁勳來到台北,發表了一場關於AI(人工智慧)和加速計算的精彩演講。我決定把這場演講的精華部分記錄下來,方便日後回顧和分享。 1. NVIDIA的技術創新 黃仁勳開場時提到,NVIDIA的GPU不僅僅是為了遊戲而設計的。他說:「我們的GPU還能用在AI和數據分析等領域...
Thumbnail
科技巨擘聯手推進生成式AI發展 開創人工智慧新時代 在生成式人工智慧(Generative AI)的浪潮中,雲端運算龍頭AWS和晶片巨擘NVIDIA攜手合作,推出一系列革命性的基礎設施、軟體和服務。
Thumbnail
根據高盛最近的研究報告,未來的個人電腦和移動設備將搭載更多由AI增強後的應用程式,如AI增強、安全性提升和運算能力強化。 消費性電子股票組合<GSXUPCAI>也顯示出潛力,並列出了成分股以及其權重。