跳至主要内容

HowTo:檢視運算資源概況-GPU Burn Testing

以下提供如何對 GPU 進行壓力測試的工具使用教學,讓 GPU 在滿載的情況下,檢查 GPU 是否可運作正常: 最終測試的結果若顯示為 OK 則代表 GPU 工作可正常執行完成;FAULTY 則表示 GPU 出現異常。


Step 1. 登入 TWSC

若尚無帳號,請參考 註冊 TWSC 帳號


Step 2. 建立開發型容器

  • 請參考 開發型容器 建立開發型容器。
  • 映像檔類型請選擇 TensorFlow、映像檔選擇 tensorflow-21.11-tf2-py3:latest 以上的版本、硬體選擇支援 1 顆 GPU 的設定即可。

Step 3. 連線容器、下載訓練程式

  • 使用 Jupyter Notebook 連線容器,開啟 Terminal。
  • 輸入以下指令,將 NCHC_GitHub training 程式下載到容器。
git clone https://github.com/TW-NCHC/AI-Services.git

Step 4. 進行 GPU Burn Testing

  • 輸入以下指令,進入 Tutorial_Two 目錄。
cd AI-Services/Tutorial_Two
  • 輸入以下指令,下載 GPU_Burn 程式並開始執行。
bash gpu_testing.sh

Step 5. 取得基礎運算資訊

  • 檢視計算能力
    GPU 容器服務所使用之 GPU 皆為 NVIDIA V100 32GB,具有強大之計算能力。使用 gpu-burn 所測試之結果為 13198 Gflop/s。

  • 監控資源運行狀況

a. 容器使用者界面監控:GPU用量、記憶體使用量。

b. 容器 Jupyter Notebook 之 Terminal 內:執行以下程式,可監控 GPU 溫度及電量。

nvidia-smi

GPU數量 以編號 0 遞增顯示,下圖範例為 1 顆 GPU
GPU溫度 以攝氏溫度呈現,下圖範例為 31 度 C
GPU電量 以瓦數呈現,下圖範例為 43W