跳至主要内容

提交跨節點運算工作

在此篇文章中,您將學會如何從註冊帳號、登入台灣杉二號 (命令列介面),並使用高速運算資源完成提交跨節點平行運算工作。

信息

台灣杉二號 (命令列介面)?高速運算?跨節點平行運算?

  • 台灣杉二號 (命令列介面)為 TWSC 服務之一,以 「Slurm」 作為資源調度系統,並支援 MPI 功能,為容錯度高、高可擴展性叢集管理系統,請參考服務概觀了解更多。

  • TWSC 單一高速運算主機具備 8 張高效能 NVIDIA V100 GPU,台灣杉二號 (命令列介面) 服務可執行跨節點高速平行運算,使用多於 8 張的 GPU 執行您的運算工作,系統提供大量的 GPU 可供您調用,搭配極高的吞吐量和極低延遲網路 InfiniBand、高效儲存系統設計,可以大幅降低數倍研發時間。請參考服務簡介了解可用計算、儲存資源等基本資源資訊。

Step 1. 準備工作:帳號、計畫(專案)、額度

  1. 註冊 TWSC
  2. 完成註冊後,您可以透過以下方式取得可用專案:

Step 2. 登入台灣杉二號 (命令列介面)

  1. 準備主機帳號、密碼、OTP 認證碼
  2. 登入主機

Step 3. 提交跨節點運算工作

請按照 容器跨節點高速運算-AI Benchmark 教學一步步完成,您將了解如何在台灣杉二號 (命令列介面) 中建立容器、撰寫運算工作的設定腳本,並提交工作、查看工作運行狀態或取消工作。

信息
  • 動手試試,文章以 Horovod 撰寫的 benchmark script 為腳本範例,您可以直接複製內容建立工作腳本。
  • 不同 Queue 針對工作最長運行時間、可提交的工作數量有所不同,您可以參考 Queue 與計算資源使用說明,依需求選擇,並修改腳本設定。
  • 使用 sacct -X 指令可查詢運算工作狀態,若運算工作已完成 (COMPLETED)、取消 (CANCELLED)、執行失敗 (FAILED),系統將會以使用的 GPU 數量、總時長計算並扣底額度。
  • 使用 scancel <JOB_ID> 可取消運算工作,停止繼續計費。
  • 費率資訊請參考價目表