Hiroki Naganuma

ABCI

qw 状態の job ID 取得

qstat | grep qw | awk '{ print $1 }' | tr '\n' ' ' | head -n 1 | awk '1'

空きノード数コマンド

qstat -f | grep " 0/0/80" | grep "gpu" | grep -v " d" | wc -l

Mila Cluster

PD 状態の job ID 取得

squeue -u naganuma.hiroki | grep PD | awk '{ print $1 }' | tr '\n' ' ' | head -n 1 | awk '1'

全体の job の中から、特定ユーザーの job 数 確認

squeue  | grep XXXXX | awk '{ print $1 }'  | wc -l

SSH 認証関連

Error message:

error: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:xxxx)>

Solution:

export PYTHONHTTPSVERIFY=0
export SSL_CERT_DIR=/etc/ssl/certs
export REQUESTS_CA_BUNDLE=/etc/ssl/certs/ca-certificates.crt

DGX Cluster

以下のコマンドで、メモリ解放できる

pkill -u $(whoami)