Symptome : certains jobs sont ’PENDING’ avec pour statut (REASON) ’ReqNodeNotAvail, Reserved for maintenance.’
Cela est du à la durée maximale du job soumis (walltime) qui est trop longue par rapport à un arrêt planifié.
Cette durée est indiquée soit dans votre script slurm (#SBATCH —time=") soit avec la commande ’squeue -u $USER’ et la colonne "TIME_LIMIT".
JOBID | PARTITION | NAME | USER | STATE | TIME | TIME_LIMIT | QOS | NODES | NODELIST(REASON) |
yyyyyy | exclusive | xxxx | xxxx | PENDING | 0:00 | 10-10:00:00 | noeud | 1 | (ReqNodeNotAvail, Reserved for maintenance) |
Vous pouvez toujours, si votre calcul le permet, réduire le walltime pour permettre à votre job de passer. Cela se fait en deux étapes :
Étape 1 : évaluer le temps restant avant la coupure
[@olympelogin1 ~]$check-timelimit.sh ************************************************************************** MAINTENANCE RESERVATION ACTIVE ! Reservation : Maintenance_Electrique_12-04-2021 will start at 2021-04-12T17:30:00 Remaining time : 5 days 40 minutes and 13 seconds If you think your job will end before the reservation starts you can adjust its duration with --time option in your sbatch headers Max value for --time option (slurm format) : 5-00:40:00 Additional information is available here : https://www.calmip.univ-toulouse.fr/spip.php?article782 **************************************************************************
La valeur est dans ce cas : 5-00:40:00
Étape2 : positionner cette nouvelle valeur pour votre job
[@olympelogin1 ~]$scontrol update jobid=yyyyyy TimeLimit=5-00:40:00
Remarque : cette valeur est à titre d’exemple. Vous obtiendrez une valeur différente en fonction du moment où vous lancerez le script check-timelimit.sh
N’hésitez pas à solliciter l’équipe support si besoin : support [dot] calmip [at] univ-toulouse [dot] fr (support[dot]calmip[at]univ-toulouse[dot]fr)
Merci de votre compréhension concernant cet arrêt de production.