Jean Zay : les espaces disques

Pour chaque projet, quatre espaces disques distincts sont accessibles : HOME, WORK et SCRATCH/JOBSCRATCH, enfin le STORE.

Chaque espace a des caractéristiques spécifiques adaptées à son utilisation, qui sont décrites ci-dessous. Les chemins d'accès à ces espaces sont stockés dans cinq variables d'environnement du shell : $HOME, $WORK, $SCRATCH et $JOBSCRATCH, enfin $STORE.

Vous pouvez connaître l'occupation des différents espaces disques avec les commandes IDRIS “idr_quota_user/idr_quota_project” ou avec la commande Unix du (disk usage). Le retour des commandes idr_quota_user et idr_quota_project est immédiat mais n'est pas une information en temps réel (les données sont actualisées une fois par jour). La commande du retourne une information en temps réel mais son exécution peut prendre beaucoup de temps selon la taille du répertoire concerné.

Pour la gestion spécifique de bases de données sur Jean Zay, une page dédiée a été rédigée en complément de celle-ci : Gestion de bases de données.

Le HOME

$HOME : c'est le répertoire d'accueil lors d'une connexion interactive. Cet espace est destiné aux fichiers de petite taille, très souvent utilisés, comme les fichiers d'environnement du shell, les utilitaires, éventuellement les sources et les bibliothèques quand leur taille est raisonnable. Cet espace a une taille limitée (en espace comme en nombre de fichiers).

Voici ses caractéristiques :

  • le HOME est un espace permanent ;
  • il est prévu pour accueillir des fichiers de petite taille ;
  • dans le cas d'un login multi-projets, le HOME est unique ;
  • il est soumis à des quotas par utilisateur volontairement assez faibles (3 Gio par défaut) ;
  • il est accessible en interactif ou dans un travail batch via la variable $HOME :
    $ cd $HOME
  • c'est le répertoire d'accueil lors d'une connexion interactive.

Remarque : l'espace HOME est aussi référencé via la variable d'environnement CCFRHOME pour respecter une nomenclature commune avec les autres centres de calcul nationaux (CINES, TGCC) :

$ cd $CCFRHOME

Le WORK

$WORK : c'est un espace de travail et de stockage permanent utilisable en batch. On y stocke généralement les fichiers de taille importante qui servent lors des exécutions en batch : les fichiers sources volumineux et les bibliothèques, les fichiers de données, les exécutables, les fichiers de résultats, les scripts de soumission.

Voici ses caractéristiques :

  • le WORK est un espace permanent ;
  • il est prévu pour accueillir des fichiers de taille importante : la taille maximum est de 10 Tio par fichier ;
  • dans le cas d'un login multi-projet, un WORK par projet est créé ;
  • il est soumis à des quotas par projet ;
  • il est accessible en interactif ou dans un travail batch ;
  • il est composé de 2 parties :
    • une partie propre à chaque utilisateur ; on y accède par la commande :
      $ cd $WORK
    • une partie commune au projet auquel l'utilisateur appartient, dans lequel on peut mettre des fichiers destinés à être partagés; on y accède par la commande :
      $ cd $ALL_CCFRWORK 
  • le WORK est un espace disque dont la bande passante est d'environ 100 Go/s en écriture et en lecture. Celle-ci peut être ponctuellement saturée en cas d'utilisation exceptionnellement intensive.

Remarque : l'espace WORK est aussi référencé via la variable d'environnement CCFRWORK pour respecter une nomenclature commune avec les autres centres de calcul nationaux (CINES, TGCC) :

$ cd $CCFRWORK

Recommandations d'utilisation :

  • les travaux batch peuvent s'exécuter dans le WORK ; cependant, plusieurs de vos travaux pouvant s'exécuter en même temps, il vous faut gérer l'unicité de vos répertoires d'exécution ou de vos noms de fichiers.
  • De plus, il est soumis à des quotas (par projet) qui peuvent stopper brutalement votre exécution s'ils sont atteints. Ainsi, dans le WORK, il faut tenir compte non seulement de votre propre activité, mais aussi de celle de vos collègues de projet. Pour ces raisons, on pourra alors être amené à lui préférer le SCRATCH ou le JOBSCRATCH pour l'exécution de ses travaux batch.

Le SCRATCH/JOBSCRATCH

$SCRATCH : c'est un espace de travail et de stockage semi-temporaire utilisable en batch, la durée de vie des fichiers y est limitée à 30 jours. On y stocke généralement les fichiers de taille importante qui servent lors des exécutions en batch : les fichiers de données, les fichiers de résultats ou de reprise de calcul (restarts). Une fois le post-traitement effectué pour réduire le volume de données, il faut penser à recopier les fichiers significatifs dans le WORK pour ne pas les perdre après 30 jours, ou dans le STORE pour un archivage à long terme.

Voici ses caractéristiques :

  • le SCRATCH est un espace semi-permanent : la durée de vie des fichiers est de 30 jours ;
  • il n'est pas sauvegardé ;
  • il est prévu pour accueillir des fichiers de taille importante : la taille maximum est de 10 Tio par fichier ;
  • il est soumis à des quotas de sécurité très larges :
    • des quotas disque par projet de l'ordre d'1/10ième de l'espace disque total
    • et des quotas inode par projet de l'ordre de 150 millions de fichiers et répertoires;
  • il est accessible en interactif ou dans un travail batch ;
  • il est composé de 2 parties :
    • une partie propre à chaque utilisateur ; on y accède par la commande :
      $ cd $SCRATCH
    • une partie commune au projet auquel l'utilisateur appartient, dans lequel on peut mettre des fichiers destinés à être partagés; on y accède par la commande :
      $ cd $ALL_CCFRSCRATCH 
  • dans le cas d'un login multi-projet, un SCRATCH par projet est créé ;
  • le SCRATCH est un espace disque dont la bande passante est d'environ 500 Go/s en écriture et en lecture.

Remarque : l'espace SCRATCH est aussi référencé via la variable d'environnement CCFRSCRATCH pour respecter une nomenclature commune avec les autres centres de calcul nationaux (CINES, TGCC) :

$ cd $CCFRSCRATCH

$JOBSCRATCH : c'est le répertoire temporaire d'exécution propre à un unique travail batch.
Voici ses caractéristiques :

  • le JOBSCRATCH est un répertoire temporaire : la durée de vie des fichiers est celle du travail batch ;
  • il n'est pas sauvegardé ;
  • il est prévu pour accueillir des fichiers de taille importante : la taille maximum est de 10 Tio par fichier ;
  • il est soumis à des quotas de sécurité très larges :
    • des quotas disque par projet de l'ordre d'1/10ième de l'espace disque total
    • et des quotas inode par projet de l'ordre de 150 millions de fichiers et répertoires;
  • il est créé automatiquement lorsqu'un travail batch démarre : il est donc unique à chaque travail ;
  • il est détruit automatiquement à la fin de ce travail : il est donc indispensable de recopier explicitement les fichiers importants sur un autre espace disque (le WORK ou le SCRATCH) avant la fin du travail ;
  • le JOBSCRATCH est un espace disque dont la bande passante est d'environ 500 Go/s en écriture et en lecture.
  • Pendant toute la durée d'exécution d'un travail batch, le JOBSCRATCH correspondant est accessible depuis la frontale Jean Zay via son numéro de job JOBID (voir la sortie de la commande squeue), votre login (variable d'environnement LOGNAME) et la commande suivante :
    $ cd /lustre/fsn1/jobscratch_hpe/$LOGNAME_JOBID

Recommandations d'utilisation :

  • On peut voir le JOBSCRATCH comme l'ancien TMPDIR.
  • Le SCRATCH peut être vu comme un WORK semi-temporaire, mais avec les performances d’entrées/sortie maximales offertes à l'IDRIS, au prix d'une durée de vie des fichiers de 30 jours.
  • Les caractéristiques semi-temporaires du SCRATCH permettent d'y stocker de gros volumes de données entre deux ou plusieurs jobs qui s’enchainent sur une durée limitée à quelques semaines : cet espace n'est pas “purgé” après chaque job.

Le STORE

$STORE : c'est l'espace d'archivage de l'IDRIS destiné au stockage à long terme de données. On y stocke généralement les fichiers de taille très importante, fruits du tar d'une arborescence de fichiers résultats de calcul, après post-traitement. C'est un espace qui n'a pas pour vocation d’être accédé ou modifié quotidiennement, mais de préserver dans le temps de très gros volumes de données avec une consultation épisodique.

Changement important : Depuis le 22 juillet 2024, le STORE est uniquement accessible depuis les frontales et les partitions prepost, archive, compil et visu. Les travaux s'exécutant sur les nœuds de calcul n'auront plus directement accès à cet espace mais vous pouvez utiliser des travaux chaînés pour automatiser la gestion des données depuis/vers le STORE (voir nos exemples de travaux chaînés utilisant le STORE).

Voici ses caractéristiques :

  • le STORE est un espace permanent ;
  • il est sécurisé par une double copie des fichiers non modifiés pendant quelques jours ;
  • il n'est pas accessible depuis les nœuds de calcul mais uniquement depuis les frontales et les partitions prepost, archive, compil et visu (vous pouvez utiliser des travaux chaînés pour automatiser la gestion des données depuis/vers le STORE, voir nos exemples de travaux chaînés utilisant le STORE) ;
  • il est prévu pour accueillir des fichiers de taille très importante : la taille maximum est de 10 Tio par fichier et la taille minimum conseillée de 250 Mio (ratio taille disque / nombre d'inodes);
  • dans le cas d'un login multi-projet, un STORE par projet est créé ;
  • il est soumis à des quotas par projet avec un faible nombre d'inodes, mais un très grand espace ;
  • il est composé de 2 parties :
    • une partie propre à chaque utilisateur ; on y accède par la commande :
      $ cd $STORE
    • une partie commune au projet auquel l'utilisateur appartient, dans lequel on peut mettre des fichiers destinés à être partagés; on y accède par la commande :
      $ cd $ALL_CCFRSTORE

Remarque : l'espace STORE est aussi référencé via la variable d'environnement CCFRSTORE pour respecter une nomenclature commune avec les autres centres de calcul nationaux (CINES, TGCC) :

$ cd $CCFRSTORE

Recommandations d'utilisation :

  • Le STORE n'a pas de principe de limitation de la durée de vie des fichiers.
  • Comme il s'agit d'un espace d'archive, il n'est pas conçu pour des accès fréquents.

Le DSDIR

$DSDIR : l'espace disque contenant les bases de données publiques volumineuses (en taille ou en nombre de fichiers) nécessaires à l'utilisation d'outils de l'Intelligence Artificielle. Ces bases de données sont visibles par l'ensemble des utilisateurs de Jean Zay.

Si vous exploitez de telles bases de données et que celles-ci ne se trouvent pas dans l'espace $DSDIR, l'IDRIS les téléchargera et les installera dans cet espace disque à votre demande.

Vous trouverez la liste des bases de données disponibles actuellement sur la page : Jean Zay : jeux de données et modèles disponibles dans l'espace de stockage $DSDIR.

Si votre base de données est personnelle ou sous licence trop restrictive, il vous faudra prendre en charge vous-même sa gestion sur les espaces disques de votre projet, comme décrit dans la page Gestion de bases de données.

Tableau récapitulatif des principaux espaces disques

Espace Capacité par défaut Spécificité Usage
$HOME 3 Go et 150 kinodes
par utilisateur
- Accueil de connexion - Stockage de fichiers de configuration et de petits fichiers
$WORK 5 To (*) et 500 kinodes
par projet
- Stockage sur disques rotatifs
(350 Go/s en lecture et 300 Go/s en écriture)
- Stockage des sources et des données d'entrée/sortie
- Exécution en batch ou interactif
$SCRATCH Quotas de sécurité très larges 4,6 Po partagés par tous les utilisateurs - Espace non sauvegardé
- Stockage SSD (1,5 To/s en lecture et 1,1 To/s en écriture)
- Durée de vie des fichiers inutilisés : 30 jours
(inutilisés = non lus, non modifiés)
- Stockage des données d'entrée/sortie volumineuses
- Exécution en batch ou interactif
- Performances optimales pour les opérations de lecture/écriture
$STORE 50 To (*) et 100 kinodes (*)
par projet
- Cache disque et bandes magnétiques
- Accès longs si fichier uniquement sur bande.
- Sécurisé par double copie sur bandes magnétiques des fichiers non modifiés pendant quelques jours.
- Stockage d'archives sur du long terme (durée de vie du projet)
- Pas accessible depuis les nœuds de calcul
(*) les quotas par projet peuvent être augmentés sur demande du chef de projet ou de son suppléant via l'interface Extranet ou sur demande auprès du support utilisateurs.

Les sauvegardes

ATTENTION : Suite à la migration vers les nouveaux espaces de stockage Lustre, l'espace disque WORK n'est plus sauvegardé. Nous vous recommandons de conserver une copie de vos données importantes sous forme d'archives stockées sur votre STORE.