Obtenir des informations sur un job

Il est possible pour visualiser simplement des information sur son job d'utiliser la commande jobinfo <jobid>.Il peut être utilisé à la fin d'un script sbatch, jobinfo donnera des informations très utiles si vous contactez le support.

jobinfo 6101
Job Infos :
              Name : Test partition volta - 4 noeuds
              User : estana
         Partition : volta
            NNodes : 4
             Nodes : olympevolta[0-3]
             State : COMPLETED
            Submit : 2023-04-14T16:08:02
             Start : 2023-04-14T16:08:02
               End : 2023-04-14T16:08:05
 Reserved walltime : 04:00:00
     Used walltime : 00:00:03
     Used CPU time : 00:01.884
% User Computation) : 0 % (00:00.658)
    % System (I/O) : 100.00 % (00:01.225)
      Mem reserved : 2.0T
      Max Mem used : 24M
    Max Disk Write : 0
     Max Disk Read : 0

Le paramètre “Max Mem used : 24M”, basé sur la variable MaxRSS, représente la quantité maximale de mémoire physique (RAM) utilisée par le processus principal d’un travail ou d’une étape Slurm.

Cependant, cette mesure dépend de la fréquence d’échantillonnage utilisée par Slurm. Comme Slurm ne surveille pas la mémoire en continu mais à des intervalles définis, il est possible que des pics de consommation de mémoire plus élevés passent inaperçus s’ils surviennent entre deux échantillonnages.

De plus, si le travail est un code MPI (Message Passing Interface), la valeur affichée correspond à la mémoire maximale utilisée par le processus individuel qui a consommé le plus, et non à la somme totale de la mémoire utilisée sur l’ensemble du nœud de calcul. Ainsi, la consommation réelle de mémoire sur le nœud peut être bien plus élevée que la valeur rapportée par MaxRSS.

Il peut être utile de mettre une petite temporisation avant la commande jobinfo pour permettre d'avoir les dernières valeurs de l'accounting slurm s'il est utilisé dans un script sbatch.

sleep 10
jobinfo

 

Voir aussi

La frontale de connexion

Une fois que vous êtes connecté à Olympe, vous êtes sur l’une des trois frontales de connexion : olympelogin1 ou

Pour lancer et suivre ses calculs sur Olympe

Lancer son calcul sbatch mon_script.cmd Quels jobs tournent ? squeue -t RUNNING Où en sont mes jobs ? squeue -u $US

Organisation des files d’attente

SLURMLa gestion des requêtes (job) se fait selon les ressources demandées par la requête (memoire,cpu(s), time limit,etc...).SLURM contrôle les files d’attente, appelées ici QOS (=Quality Of Service).

Réservation interactive en batch

Pour réserver par exemple un nœud en interactif (

Script SLURM pour une réservation de MOINS de 18 cœurs

Réservation des ressources. Deux exemples: Code MPI avec 5 tâches et 10GB de mémoire;  Code Multithreaded avec 5 threads et 10GB de mémoire.

Script SLURM pour une réservation de PLUS de 18 cœurs

Écrire un script pour un code utilisant plus de 18 cœurs

Script SLURM pour Machine à Mémoire Partagée MESCA

Exemple de script SLURM pour une application OpenMP multithreadée sur 18 threads et ayant besoin de 200 Go (200000 MBytes) de ram globalement adressable:

Script SLURM pour Application OpenMP ou Multithreadée

Nous donnons un exemple de script pour une application purement OpenMP déployant 36 threads.

calcul "embarrassingly parallel": codes non mpi

Cet article explique comment exécuter un programme unique sur un jeu de fichiers en entrée.

calcul "embarrassingly parallel": codes mpi

Lancer avec chdb des traitements mpi

L’accounting

Les algorithmes de calcul de la consommation suivant les ressources que vous utilisez.

Réservation des noeuds GPU

Exemple pour 1 nœud et 9 tâches et 1 GPU Il faut OBLIGATOIREMENT que votre script comporte à minima les informations suivantes :

The chdb tutorial

In this tutorial, you’ll learn how to use chdb to run your embarassingly parallel computations. All the usecases supported by chdb will be described here.

Afficher ma consommation sur Olympe

Cet article décrit les commandes disponibles pour afficher la consommation de son projet, des membres de son projet et des jobs de son projet.

Script SLURM en dépeuplé

Pour des raisons de besoins mémoire par processus MPI ou de nombre de processus MPI égal à une puissance de 2, il peut être intéressant ou nécessaire de déployer sur chaque nœud un nombre de processus MPI inférieur à 36 (sachant que les noœuds d’Ol

L’outil placement

Contrôler le placement d’un job hybride Il est particulièrement important de contrôler le placement de ses threads dans le cas d’un job hybride (openmp + mpi).

Exécution hybride MPI et OpenMP

A travers des exemples nous montrons le moyens d’exécuter des jobs mixtes MPI+OpenMP, en attachant explicitement les processus et les threads aux cœurs physiques des nœuds.

Conteneurs Singularity

Utilisation des conteneurs singularity à Calmip

soumission de jobs avec dépendances

On peut soumettre des jobs, qui ne partiront qu'après la fin d'exécution d'autres jobs.

Impact de la maintenance du 11 Janvier 2022 sur la soumission des Jobs / Impact on Job Submission dur to maintenance

Nous mettons en place un dispositif spécifique, afin que vos jobs ne soient pas tués lors de la maintenance du 11 Janvier 2022. En fonction de leur durée, certains jobs pourront être mis en attente jusqu’à la fin de la maintenance