
******************************************************************** Flash Info de l'IDRIS n°2024-27 (01/10/2024) Changements importants : QoS, JupyterHub, H100 ******************************************************************** [English version below] Bonjour, Suite à la maintenance d'aujourd'hui (mardi 1er octobre), plusieurs changements pourront vous impacter. * Changement de noms des QoS pour la partition A100 Afin de pouvoir gérer plus finement le partage des ressources sur la machine, des QoS spécifiques ont été définies pour la partition A100. Si vous utilisiez explicitement les QoS "qos_gpu-t3" ou "qos_gpu-dev" dans vos soumissions de travaux ciblant cette partition, vous devrez utiliser à la place "qos_gpu_a100-t3" ou "qos_gpu_a100-dev". La QoS "qos_gpu_a100-t3" est utilisée par défaut et peut être omise. Les partitions CPU et V100 ne sont pas touchées par ce changement. La documentation a été mise à jour en conséquence : http://www.idris.fr/jean-zay/gpu/jean-zay-gpu-exec_partition_slurm.html#les_qos_disponibles. * Usage des QoS via JupyterHub Si vous souhaitez spécifier une QoS lorsque vous utilisez le lanceur Slurm sur JupyterHub, il faudra maintenant la spécifier manuellement dans le champ "Extra #SBATCH directives". * Changement de l'adresse IP de JupyterHub L'adresse IP de notre instance JupyterHub a été modifiée. Il s'agit maintenant de 130.84.132.56. Ce changement peut vous impacter si votre organisme applique un filtrage par adresse IP des connexions sortantes. Si vous rencontrez des difficultés de connexion à JupyterHub, nous vous suggérons de prendre contact avec votre service informatique en leur signalement ce changement. Pour rappel, la plage des adresses IP utilisées pour les machines et les services de l'IDRIS est la suivante : 130.84.132.0/23. Nous recommandons d'autoriser la plage complète plutôt que des adresses IP spécifiques afin de ne pas être affecté par de futurs changements internes à notre infrastructure. * Ouverture de la partition H100 Les utilisateurs ayant déjà obtenu des heures H100 peuvent désormais les utiliser. Vous pouvez vous inspirer de l'exemple ci-dessous : > #!/bin/bash > #SBATCH --job-name=mon_travail # nom du job > #SBATCH -A xyz@h100 # comptabilite a utiliser, avec xyz le trigramme de votre projet > #SBATCH -C h100 # pour cibler les noeuds H100 > # Ici, reservation de 3x24=72 CPU (pour 3 taches) et de 3 GPU (1 GPU par tache) sur un seul noeud : > #SBATCH --nodes=1 # nombre de noeud > #SBATCH --ntasks-per-node=3 # nombre de tache MPI par noeud (= ici nombre de GPU par noeud) > #SBATCH --gres=gpu:3 # nombre de GPU par noeud (max 4 pour les noeuds H100) > # Sachant qu'ici on ne reserve qu'un seul GPU par tache (soit 1/4 des GPUs), > # l'ideal est de reserver 1/4 des CPU du noeud pour chaque tache: > #SBATCH --cpus-per-task=24 # nombre de CPU par tache (1/4 des CPUs ici) > # /!\ Attention, "multithread" fait reference a l'hyperthreading dans la terminologie Slurm > #SBATCH --hint=nomultithread # hyperthreading desactive Notez que les modules par défaut ne sont pas compatibles avec la partition H100. Afin de retrouver l'environnement logiciel spécifique à cette partition, vous devez charger le module "arch/h100" : http://www.idris.fr/jean-zay/cpu/jean-zay-cpu-doc_module.html#modules_compatibles_avec_la_partition_gpu_p6. Cela doit être fait dans vos scripts de soumission mais aussi dans votre terminal si vous avez besoin de compiler des codes. Si vous n'avez pas encore d'heures H100, le responsable du projet peut faire une demande au fil de l'eau sur le portail eDARI si nécessaire. N'hésitez pas à contacter [email protected] en cas de besoin. Cordialement, L'équipe support de l'IDRIS ------------------------------------ Dear Jean Zay user, Several changes might affect you after today's maintenance operations (Tuesday October 1st): * Qos name changes for the A100 partition In order to more precisely manage the ressource sharing of the machine, specific QoS have been defined for the A100 partition. If you used to explicitely specify "qos_gpu-t3" or "qos_gpu-dev" in your Slurm jobs targeting the A100 partition, you now have to use "qos_gpu_a100-t3" or "qos_gpu_a100-dev" instead. Note that the "qos_gpu_a100-t3" QoS is used by default and may be omitted. The CPU and V100 partitions are not affected by these changes. The on-line documentation has been updated: http://www.idris.fr/eng/jean-zay/gpu/jean-zay-gpu-exec_partition_slurm-eng.html#available_qos * Use of QoS through JupyterHub If you wish to specify a QoS when using Slurm on JupyterHub, you now have to do it manually in the "Extra #SBATCH directives" field. * JupyterHub IP address change The IP address of our JupyterHub instance has been modified. It is now 130.84.132.56. This change might impact you if your institution applies an IP address filtering of outgoing connections. If you run into difficulties when connectng to JupyterHub, we invite you to contact your local administrator to mention this change. As a reminder, the set of IP addresses used for the IDRIS machines and services is the following: 130.84.132.0/23. We recommend to authorize the complete set rather than specific IP addresses so as not to be affected by potential future internal changes of our infrastructure. * Opening of the H100 partition Users who were already granted H100 computing hours may now use them. An example submission script is as follows: > #!/bin/bash > #SBATCH --job-name=my_job # job name > #SBATCH -A xyz@h100 # account to use, with xyz the 3 letter code of your project > #SBATCH -C h100 # to target H100 nodes > # Example reservation of 3x24=72 CPU (for 3 tasks) and 3 GPU (1 GPU per task) on one node: > #SBATCH --nodes=1 # number of nodes > #SBATCH --ntasks-per-node=3 # number of MPI tasks per node (= number of GPU requested per node here) > #SBATCH --gres=gpu:3 # number of GPU requested per node (max. 4 for H100 nodes) > # Since here only one GPU per task is requested (i.e., 1/4 of the available GPUs) > # the best way to proceed is to book 1/4 of the node's CPU for each task: > #SBATCH --cpus-per-task=24 # number of CPU per task (1/4 of the CPUs here) > # /!\ Caution, "multithread" in Slurm vocabulary refers to hyperthreading. > #SBATCH --hint=nomultithread # hyperthreading deactived Note that the default modules are not compatible with the H100 partition. In order to use the software environment dedicated to this partition, you need to load the "arch/h100" module: http://www.idris.fr/eng/jean-zay/cpu/jean-zay-cpu-doc_module-eng.html#modules_compatible_with_gpu_p6_partition. This is needed for your submission scripts but also in your shell when compiling codes. If you do not have H100 computing hours yet, your project manager may ask for supplementary hours ("au fil de l'eau") on the eDARI portal if necessary. Do not hesitate to contact [email protected] if needed. Best regards, The IDRIS support team