FAQs | 台灣杉二號 (命令列介面) (TWNIA2)
連線登入
Q1. 請問如何登入台灣杉二號(命令列介面)?
使用 SSH 方式登入,登入節點為 ln01.twcc.ai,先輸入主機密碼再輸入OTP,即完成登入,詳細登入步驟請參考此文件。
Q2. SSH 連線至 TWSC 上的資源 CCS、VCS 和 HPC 有哪些可使用的的開源軟體?
可以使用 MobaXterm、PuTTY 和 VSCode...等第三方開源軟體。
Q3. 半年前登入過台灣杉二號 (命令列介面),而最近想使用時卻無法成功登入?
因為個人主機密碼時效是 180 天,如超過時效,需至 Service 會員中心 更改個人主機密碼,修改完成後再進行登入。
資源配置與監控
Q2. 使用跨節點運算,節點是系統自動選取或需手動選取?
您可以使用 Slurm 指令選取節點,相關指令請參考此文件。
Q3. 為什麼我執行任務索取多個 CPU 資源會發生錯誤?
請確認使用的資源比例,因台灣杉二號的資源比例必須為 1 GPU : 4 CPU : 90 GB Memory,例:GPU 數量須設定為 8 個才能取得 32 個 CPU。
套件軟體
Q1. 請問在台灣杉二號 (命令列介面) 如何部屬環境執行我的程式?
Q2. 可以協助我安裝套件嗎?
您擁有自由安裝套件的權限,請您依所需自行安裝。此外,我們建議您使用 Conda 或 Singularity 容器管理套件。
Q3. 排程系統 Slurm 是什麼?
請參考此文件有 Slurm 系統架構的詳細說明。
Q4. 是否可以在台灣杉二號上安裝 Rclone 軟體同步工具?
台灣杉二號有安裝最新版的 Rclone,可以使用 module load rclone
指令來取得 Rclone 的使用環境。而 Rclone 是使用 Go 語言撰寫,解壓縮在家目錄即可直接使用。
Q5. 台灣杉二號有支援 Nvidia 的 CUDA 運算架構嗎?
有的,在登入台灣杉二號節點後執行 module avail
指令,將會列出所有的可被載入的 module 資訊,您可使用 module load
指令選擇所需的 CUDA 版本。
Q6. 為什麼有些套件在開發型容器可以使用,但在台灣杉二號不能,兩者不是共用高速儲存空間 (HFS) 嗎?
兩者儲存環境相同,但計算環境不同:
開發型容器的計算環境是由 TWSC 容器映像檔所建置。
而台灣杉二號則需使用者自行部署計算環境。 提示: 台灣杉二號可使用
module
載入所需之套件,詳細使用方法請參考此文件。
儲存與資料傳輸
Q1. 登入後發現 /home/$USER 沒什麼檔案是正常的嗎?
台灣杉二號的儲存空間是採用高速檔案系統,而此空間的使用權限為您個人所有,若您未曾載入檔案,此空間便是空的。
Q2. 計畫到期後儲存在台灣杉二號的檔案會刪除嗎?
登入台灣杉二號使用的儲存空間為高速檔案系統,儲存空間是跟著個人帳號非計畫,因此計畫到期後檔案不會隨計畫刪除。
重要: 系統會定期清理 TWCC 帳號下久未使用之資源,請務必定期備份您的資料。網路安全
Q1. 請問台灣杉二號的登入節點 IP 位置為何?
203.145.219.98
執行錯誤
Q1. 使用台灣杉二號時出現錯誤訊息QOSMaxSubmitJobPerUserLimit Error
?
QOSMaxSubmitJobPerUserLimit Error
?此錯誤訊息顯示您提交超過 20 個計算工作上限 (gtest 為測試用 Queue,僅能提交 5 個工作)。
若遇此情況,建議您先使用 squeue
指令查看任務狀態,再使用 scancel
取消狀態為等待中或運行中的任務,減少提交的任務數量。Queue 與計算資源使用說明可參考此文件。
Q2. 提交 Job 後,在NODELIST(REASON)
出現錯誤訊息QOSMaxGRESPerUser
?
NODELIST(REASON)
出現錯誤訊息QOSMaxGRESPerUser
? 此錯誤訊息顯示您在台灣杉二號的計算工作加總 GPUs 已達上限 (系統基本設定為 40 張 GPUs)。
Queue 與計算資源使用說明可參考此文件,如達到上限將不能提交工作,請減少索取 GPU 資源。
Q3. 執行 slurm 指令時出現錯誤訊息 Socket timed out on send/recv operation
?
Socket timed out on send/recv operation
? 此錯誤訊息是因為登入節點系統較忙碌導致,請您稍等一陣子再執行一次命令即可。