
Jean Zay : commande de contrôle des travaux
Les travaux sont gérés sur l'ensemble des nœuds par le logiciel Slurm .
- Pour soumettre un script de soumission :
$ sbatch script.slurm
- Pour suivre ses jobs en attente ou en cours d'exécution :
$ squeue -u $USER
Cette commande affiche l'information sous la forme suivante :
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON) 235 part_name test abc R 00:02 1 r6i3n1
où
JOBID : l'identifiant du job
PARTITION : la partition utilisée
NAME : le nom du job
USER : le nom d'utilisateur du propriétaire du job
ST : l'état d'exécution du job ( R=running, PD=pending, CG=completing )
TIME : le temps Elapsed
NODES : le nombre de nœuds utilisés
NODELIST : la liste de des nœuds utilisés.
- Pour obtenir des informations complètes sur un job (ressources allouées et état d'exécution) :
$ scontrol show job $JOBID
- Pour annuler une exécution :
$ scancel $JOBID
Remarques
- Un tableau exhaustif des commandes Slurm est proposé ici.
- En cas d'incident matériel sur la machine, la configuration par défaut de SLURM fait que les jobs en cours sont automatiquement redémarrés depuis le début. Si vous voulez éviter ce comportement, il vous faut utiliser l'option
--no-requeue
lors de la soumission, c'est-à-dire soumettre votre job en faisant
$ sbatch --no-requeue script.slurm
ou ajouter la ligne
$SBATCH --no-requeue
dans votre script de soumission.