📄️ sacct
此指令用於列出帳號的相關任務或任務集之狀態,例如運行中、已終止或是已完成,是最基本的檢視任務指令。
📄️ salloc
用於即時分配資源分配,通常會用於分配資源並且產生一個 shell,然後使用 shell 執行 srun 的命令來啟動並執行任務。
📄️ sattach
可將標準輸入、輸出,和錯誤訊息等多次掛載與卸載在當前運行的任務或任務集中。sattach 會附加到一個執行中的slurm 任務集中的特定任務步驟,透過attaching將會使Slurm任務中所有步驟的IO Streams變為可使用狀態,也適用於平行運算除錯工具使用,例如TotalView。例如我們將一個腳本內容改為直行多個srun,即為多個任務步驟,運行之後,可使用sattach 瀏覽步驟狀態。
📄️ sbcast
可用於將文件從本地硬碟傳輸到被分配任務的節點硬碟上,可在硬碟空間小的計算節點,或相對於共享文件系統提供更好的效能。但本服務已提供 HFS供使用者傳輸相關檔案,因此建議直接使用「/fs01」或「/fs02」兩個 HFS 的目錄,取代sbcast的功能。
📄️ sbatch
用於提交作業腳本以供以後執行。該腳本通常包含一個或多個用於啟動並行任務的srun指令,是最基本的任務運行指令之一。sbatch會交付一個批次執行腳本給Slurm,批次腳本可以透過指令中的檔案名稱來指定,如果沒有定義檔案名稱,sbatch將會直接從standard input接收指令。批次腳本內可能會透過前置為「#SBATCH」的方式,在執行指令之前來指定參數。
📄️ scancel
用於取消正在等待中,或運行中的任務或任務集,也可發出任意訊號給運行的任務或任務集相關的所有進程。scancel 用於發出信號或取消特定的任務、任務陣列,或者任務步驟。一組任意數量的任務或任務步驟可以被指定的特徵過濾出來,或者透過空白鍵來區分一整串的任務或任務步驟的ID。如果任務陣列有定義任務ID的話,就僅有該任務以及子任務被刪除,反之沒有定義的話,則所有有相關的任務都會被刪除。
📄️ scontrol
scontrol是用於查看和/或修改Slurm狀態的管理工具。請注意,許多scontrol命令只能以root用戶身份執行,因此只有管理人員可使用。scontrol使用來檢視和編輯Slurm 的設定,包含任務、任務步驟、節點、分區以及保留資源和系統設定等。大部分的指令只能透過最高權限管理者root來執行,如果有未認證的使用者使用此指令,將會產生錯誤訊息。
📄️ sinfo
sinfo 資訊包含 Slurm 管理的分區和節點的狀態,sinfo 具有多種的過濾、排序,以及格式選項。也很常用於測試 slurm 指令是否可以被正常使用,例如可透過「sinfo -V」來確認Slurm版本資訊。
📄️ smap
smap 主要以圖像的方式來顯示 Slurm 所管理的任務、分區,以及節點的狀態資訊,使用smap會顯示一些極少存取的節點以及分區,相當於使用「sinfo」或者「squeue」的指令加上選項「--all」的結果。直接輸入「smap」後的範例如下,進入此畫面後隨意打任何一個鍵就會退出。
📄️ squeue
squeue顯示任務或任務集的狀態。它具有各種過濾,排序和格式選項。預設是按優先順序顯示正在運行的任務,然後按優先順序顯示正在等待的任務,是常用檢視任務的指令。範例如下:
📄️ srun
srun用於提交任務或作為提交任務集中的單一任務。srun有多種選項來指定資源需求,包括:最小和最大節點數,CPU數,是否使用特定節點,以及特定節點的特徵(例如 記憶體大小,硬碟空間,某些必需的功能等)。由Slurm管理的叢集可執行平行運算工作,依序或平行在獨立或共享的節點上運作,運作的任務可以包含多步驟的任務,並可依照預先被分配的節點資源來工作。範例如下:
📄️ strigger
strigger用於設置,取得或查看事件觸發器。事件觸發器包括節點關閉或任務接近其時間限制等事件。這些事件可能導致觸發執行任意腳本,經常用於提醒系統管理者節點故障,或者一個任務運行接近限制時間時,採用特定方式來安全結束特定程序,通常會使用節點清單(nodelist)或任務ID等參數來傳遞至特定程式內。此指令僅提供系統內具管理權限使用者使用,若要使用請洽本系統管理人員。