SLURM : ReqNodeNotAvail, Reserved for maintenance

Symptome : certains jobs sont ’PENDING’ avec pour statut (REASON) ’ReqNodeNotAvail, Reserved for maintenance.’

Cela est du à la durée maximale du job soumis (walltime) qui est trop longue par rapport à un arrêt planifié.
Cette durée est indiquée soit dans votre script slurm (#SBATCH —time=") soit avec la commande ’squeue -u $USER’ et la colonne "TIME_LIMIT".

JOBID PARTITION NAME USER STATE TIME TIME_LIMIT QOS NODES NODELIST(REASON)
yyyyyy exclusive xxxx xxxx PENDING 0:00 10-10:00:00 noeud 1 (ReqNodeNotAvail, Reserved for maintenance)

Vous pouvez toujours, si votre calcul le permet, réduire le walltime pour permettre à votre job de passer. Cela se fait en deux étapes :

Étape 1 : évaluer le temps restant avant la coupure

[@olympelogin1 ~]$check-timelimit.sh
**************************************************************************

              MAINTENANCE RESERVATION ACTIVE !

    Reservation : Maintenance_Electrique_12-04-2021 will start at  2021-04-12T17:30:00

    Remaining time : 5 days 40 minutes and 13 seconds

    If you think your job will end before the reservation starts
    you can adjust its duration with --time option in your sbatch headers

    Max value for --time option (slurm format) : 5-00:40:00

    Additional information is available here :
    https://www.calmip.univ-toulouse.fr/spip.php?article782

**************************************************************************

La valeur est dans ce cas : 5-00:40:00

Étape2 : positionner cette nouvelle valeur pour votre job

[@olympelogin1 ~]$scontrol update jobid=yyyyyy TimeLimit=5-00:40:00

Remarque : cette valeur est à titre d’exemple. Vous obtiendrez une valeur différente en fonction du moment où vous lancerez le script check-timelimit.sh

N’hésitez pas à solliciter l’équipe support si besoin : support [dot] calmip [at] univ-toulouse [dot] fr (support[dot]calmip[at]univ-toulouse[dot]fr)

Merci de votre compréhension concernant cet arrêt de production.

Voir aussi

FAQ

Questions fréquentes et messages d'erreurs