28/01/2025 - Olympe - Incident en cours - Evolution Statut

Soumis par Nicolas renon le

Bonjour,

Évolution Statut de l'Incident :
 Lun  3 fév 2025 16:10:23 CET

La reconstruction qui devait s'opérer ce week-end grâce aux interventions conjointes de notre prestataire EVIDEN et du constructeur de la baie a échoué car le nouveau disque qui portait cette reconstruction est lui-même tombé en panne.

Nous avons entamé une nouvelle reconstruction sur un nouveau disque pour essayer de nouveau de récupérer les données (les 8% de fichiers impactés). Elle devrait se terminer dans une dizaine d'heures environ si tout se passe bien.

Pour rappel, vous pouvez lancer des calculs, l'espace /tmpdir est accessibleVous ne pouvez pas lancer des calculs qui devraient utiliser des fichiers évoqués ci-dessous :
 

  • Au maximum, 8% des fichiers de l'espace de fichier temporaire"tmpdir" sont impactés par la panne de ce groupe de disques. Nous travaillons avec notre partenaire EVIDEN pour minimiser cet impact. Nous ne sommes pas en mesure de garantir la récupération complète des données de ces fichiers.
     
  • Pour permettre la reconstruction des données, 25% des fichiers de l'espace de fichier temporaire "/tmpdir" sont momentanément inaccessibles.
  • La reconstruction est toujours en cours.
     
Notre stratégie est de se laisser jusqu'à la fin de la semaine pour essayer de remettre le groupe de disque en état nominal et ainsi éviter la perte de données.

Ven 31 jan 2025 11:18:02 CET
 

  • L'incident en cours est lié à une triple panne disque (sur 1 groupe de disques particulier) d'une des baies composant l'espace de fichier temporaire "/tmpdir". La reconstruction est en cours mais difficile et nous sommes en contact avec le support de niveau 3 du constructeur.
  • Au maximum, 8% des fichiers de l'espace de fichier temporaire"tmpdir" sont impactés par la panne de ce groupe de disques. Nous travaillons avec notre partenaire EVIDEN pour minimiser cet impact. Nous ne sommes pas en mesure de garantir la récupération complète des données de ces fichiers. Nous sommes en train de constituer pour chaque utilisateur la liste de ses fichiers impactés qui fera l'objet d'une communication ultérieure. 
     
  • Pour permettre la reconstruction des données, 25% des fichiers de l'espace de fichier temporaire "/tmpdir" sont momentanément inaccessibles.

Vous pouvez de nouveau soumettre des calculs en prenant en compte que certains fichiers de l'espace sur le "/tmpdir" déposés avant l'incident ne seront pas disponibles.

Nous préconisons de tester la disponibilité du ou des fichiers avec la commande "ls" avant de lancer un calcul  :

ls /tmpdir/mon_user/mon_fichier

Si vous obtenez des messages de ce type, cela veut dire que le fichier est momentanément inaccessible mais pas forcément corrompu :

ls -al /tmpdir/cbns/canvas.png
ls: cannot access /tmpdir/cbns/canvas.png: Cannot send after transport endpoint shutdown

ou

ls -al /tmpdir/DNNSP99099/matrix/file1
ls: cannot access /tmpdir/DNNSP99099/matrix/files/file1.bin: Cannot send after transport endpoint shutdown
ls: cannot access /tmpdir/DNNSP99099/matrix/files/file1.tar.gz: Cannot send after transport endpoint shutdown
total 1656
-?????????? ? ? ? ? ? file1.bin
-rw-------+ 1 plic p99099 1680020 Sep 25 2023 file2
-?????????? ? ? ? ? ? file1.tar.gz
-rw-rw----+ 1 plic p99099 177 Sep 26 2023 README
drwxrwx---+ 2 plic p99099 4096 Sep 28 2023 TEST
 

Nous vous remercions pour votre compréhension et votre patience dans la résolution de cet incident matériel.

Nous communiquerons de nouveau sur l'évolution de cet incident au plus tard lundi dans la journée.

 

Mer 29 jan 2025 18:13:34 CET

  • cause de l'incident : triple panne disque sur 1 groupe de disque
  • la reconstruction est en cours mais difficile
  • l'accès au /tmpdir est possible mais dégradé (certains fichiers demeurent inaccessibles) 
  • nous ferons un point sur l'avancée du traitement de l'incident demain dans la journée 

Mar 28 jan 2025 13:58:05 CET

L'accès à l'espace /tmpdir a été partiellement rétabli.

Certains fichiers peuvent demeurer inaccessibles. Dans ce cas des messages de ce type peuvent apparaitre :   

[olympe @olympelogin1 ~]$ ll /tmpdir/xxx

ls: cannot access

La cause ayant entrainer l'incident a été identifiée. Elle est en cours de traitement.

Mar 28 jan 2025 10:12:05 CET

Il y'a un incident en cours sur le système de calcul Olympe.

L'accès à l'espace /tmpdir est très perturbé, voire impossible.

Les équipes CALMIP & EVIDEN sont en cours d'investigation.

Désolé pour le désagrément.

Equipe CALMIP