Jean Zay : outil CEEMS de mesure de l'énergie

Qu'est ce que CEEMS ?

L'outil CEEMS de mesure de l'énergie est mis à la disposition des utilisateurs de Jean Zay. Il s'agit d'un outil open-source (lien github) avec une documentation en ligne (lien doc).

Notez que l'outil CEEMS se base sur des données obtenues au niveau des nœuds de calcul. Ils ne tiennent pas compte des aspects tels que le refroidissement, le réseau d'interconnexion, les entrées/sorties, … Si votre but est d'évaluer votre empreinte carbone globale en prenant en compte ces aspects, vous pouvez utiliser les chiffres fournis par GENCI à ce sujet. Voir ce lien .

Accéder à CEEMS

L'instance de CEEMS sur Jean Zay est accessible via un service d'authentification Single Sign-On (SSO) avec votre identifiant et mot de passe Jean Zay, à l'adresse : https://jean-zay-ceems.idris.fr . Les modalités de connexion sont identiques à celles utilisées pour accéder à JupyterHub, comme indiqué sur cette page : Jupyterhub.

Utiliser CEEMS

Depuis la page d'accueil, il faut se rendre dans le menu “Home > Dashboards > SLURM Job Metrics > User Job Summary” si ce n'est pas déjà le cas.

Le haut de la page affichée se présente alors comme suit :

Paramètres de mesure

Sur cette page, vous pouvez sélectionner le type d'heures souhaité via le menu déroulant “Account” (…@cpu, …@v100, …@a100 ou …@h100). Les choix disponibles, ainsi que l'option par défaut, dépendent des heures attribuées au projet.

Vous pouvez aussi choisir le coefficient d'émission de CO2 à utiliser (variable en fonction de la référence choisie) à l'aide du menu déroulant “Emission Factor Provider“. Il sert de base au calcul de la quantité de CO2 émise par vos jobs. Vous pouvez obtenir des informations sur les choix possibles dans l'encart à droite de la page intitulé “README”.

Il est possible de choisir la période d'analyse des données via le menu déroulant “Last 90 days” (qui est la valeur par défaut).

Notez que le menu déroulant “Refresh“ à droite vous permet de désactiver le rafraîchissement automatique ou de l'activer en choisissant la fréquence.

Affichages

Suite aux choix précédents, vous pouvez consulter les statistiques correspondantes pour :

  • l'utilisation globale par l'utilisateur, dans la rubrique “Aggregate Usage Statistics of User…”,

  • l'utilisation globale pour le projet, dans la rubrique “Aggregate Usage Statistics of Project…”,

  • la répartition de l'utilisation de l'énergie et des émissions au sein du projet, dans la rubrique “Breakdown of Energy and Emissions Usage …”

  • et les métriques pour vos jobs, dans la rubrique (“Job Metrics …”)

Chaque rubrique contient un README qui fournit une introduction sur la rubrique concernée ainsi qu'une définition des métriques agrégées présentées.

Détails par job

Dans la rubrique “Job Metrics…”, seuls vos jobs d'une durée supérieure à 5 minutes sur la partition sélectionnée sont affichés. Ils apparaissent quelques minutes après le démarrage des jobs (au plus tard 30 min). Les informations sont ensuite mises à jour en temps réel (suivant la durée de rafraîchissement choisie).

En cliquant sur un job dans la liste “Job Metrics”, vous accédez au tableau de bord “Single Job Metrics”. Dans ce tableau de bord, vous aurez, pour ce job, des statistiques détaillées par nœud (via le menu déroulant “Compute Node”) et éventuellement par GPU (via le menu déroulant “GPU”), en fonction du type de job (CPU ou GPU).

Le tableau de bord “Single Job Metrics” comprend plusieurs sections, telles que CPU Stats, GPU Stats et GPU Profiling Stats. Les définitions des métriques présentées dans ces sections sont disponibles dans le README de cette page. Cette page fournit également des données de profilage et des statistiques sur les entrées/sorties (I/O). Notez que pour activer certaines de ces fonctionnalités, vous devez configurer les variables d’environnement correspondantes, tel qu'indiqué dans le README.