HowTo:檢視運算資源概況-GPU Burn Testing
以下提供如何對 GPU 進行壓力測試的工具使用教學,讓 GPU 在滿載的情況下,檢查 GPU 是否可運作正常:
最終測試的結果若顯示為 OK
則代表 GPU 工作可正常執行完成;FAULTY
則表示 GPU 出現異常。
Step 1. 登入 TWSC
若尚無帳號,請參考 註冊 TWSC 帳號。
Step 2. 建立開發型容器
- 請參考 開發型容器 建立開發型容器。
- 映像檔類型請選擇 TensorFlow、映像檔選擇 tensorflow-21.11-tf2-py3:latest 以上的版本、硬體選擇支援 1 顆 GPU 的設定即可。
Step 3. 連線容器、下載訓練程式
- 使用 Jupyter Notebook 連線容器,開啟 Terminal。
- 輸入以下指令,將 NCHC_GitHub training 程式下載到容器。
git clone https://github.com/TW-NCHC/AI-Services.git
Step 4. 進行 GPU Burn Testing
- 輸入以下指令,進入 Tutorial_Two 目錄。
cd AI-Services/Tutorial_Two
- 輸入以下指令,下載 GPU_Burn 程式並開始執行。
bash gpu_testing.sh
Step 5. 取得基礎運算資訊
- 檢視計算能力
GPU 容器服務所使用之 GPU 皆為 NVIDIA V100 32GB,具有強大之計算能力。使用 gpu-burn 所測試之結果為 13198 Gflop/s。
- 監控資源運行狀況
a. 容器使用者界面監控:GPU用量、記憶體使用量。
b. 容器 Jupyter Notebook 之 Terminal 內:執行以下程式,可監控 GPU 溫度及電量。
nvidia-smi
GPU數量
以編號 0 遞增顯示,下圖範例為 1 顆 GPU
GPU溫度
以攝氏溫度呈現,下圖範例為 31 度 C
GPU電量
以瓦數呈現,下圖範例為 43W