Bonjour,
Évolution Statut de l'Incident :
Lun 3 fév 2025 16:10:23 CET
La reconstruction qui devait s'opérer ce week-end grâce aux interventions conjointes de notre prestataire EVIDEN et du constructeur de la baie a échoué car le nouveau disque qui portait cette reconstruction est lui-même tombé en panne.
Nous avons entamé une nouvelle reconstruction sur un nouveau disque pour essayer de nouveau de récupérer les données (les 8% de fichiers impactés). Elle devrait se terminer dans une dizaine d'heures environ si tout se passe bien.
Pour rappel, vous pouvez lancer des calculs, l'espace /tmpdir est accessible. Vous ne pouvez pas lancer des calculs qui devraient utiliser des fichiers évoqués ci-dessous :
- Au maximum, 8% des fichiers de l'espace de fichier temporaire"tmpdir" sont impactés par la panne de ce groupe de disques. Nous travaillons avec notre partenaire EVIDEN pour minimiser cet impact. Nous ne sommes pas en mesure de garantir la récupération complète des données de ces fichiers.
- Pour permettre la reconstruction des données, 25% des fichiers de l'espace de fichier temporaire "/tmpdir" sont momentanément inaccessibles.
- La reconstruction est toujours en cours.
Ven 31 jan 2025 11:18:02 CET
- L'incident en cours est lié à une triple panne disque (sur 1 groupe de disques particulier) d'une des baies composant l'espace de fichier temporaire "/tmpdir". La reconstruction est en cours mais difficile et nous sommes en contact avec le support de niveau 3 du constructeur.
- Au maximum, 8% des fichiers de l'espace de fichier temporaire"tmpdir" sont impactés par la panne de ce groupe de disques. Nous travaillons avec notre partenaire EVIDEN pour minimiser cet impact. Nous ne sommes pas en mesure de garantir la récupération complète des données de ces fichiers. Nous sommes en train de constituer pour chaque utilisateur la liste de ses fichiers impactés qui fera l'objet d'une communication ultérieure.
- Pour permettre la reconstruction des données, 25% des fichiers de l'espace de fichier temporaire "/tmpdir" sont momentanément inaccessibles.
Vous pouvez de nouveau soumettre des calculs en prenant en compte que certains fichiers de l'espace sur le "/tmpdir" déposés avant l'incident ne seront pas disponibles.
Nous préconisons de tester la disponibilité du ou des fichiers avec la commande "ls" avant de lancer un calcul :
ls /tmpdir/mon_user/mon_fichier
Si vous obtenez des messages de ce type, cela veut dire que le fichier est momentanément inaccessible mais pas forcément corrompu :
ls -al /tmpdir/cbns/canvas.png
ls: cannot access /tmpdir/cbns/canvas.png: Cannot send after transport endpoint shutdown
ou
ls -al /tmpdir/DNNSP99099/matrix/file1
ls: cannot access /tmpdir/DNNSP99099/matrix/files/file1.bin: Cannot send after transport endpoint shutdown
ls: cannot access /tmpdir/DNNSP99099/matrix/files/file1.tar.gz: Cannot send after transport endpoint shutdown
total 1656
-?????????? ? ? ? ? ? file1.bin
-rw-------+ 1 plic p99099 1680020 Sep 25 2023 file2
-?????????? ? ? ? ? ? file1.tar.gz
-rw-rw----+ 1 plic p99099 177 Sep 26 2023 README
drwxrwx---+ 2 plic p99099 4096 Sep 28 2023 TEST
Nous vous remercions pour votre compréhension et votre patience dans la résolution de cet incident matériel.
Nous communiquerons de nouveau sur l'évolution de cet incident au plus tard lundi dans la journée.
Mer 29 jan 2025 18:13:34 CET
- cause de l'incident : triple panne disque sur 1 groupe de disque
- la reconstruction est en cours mais difficile
- l'accès au /tmpdir est possible mais dégradé (certains fichiers demeurent inaccessibles)
- nous ferons un point sur l'avancée du traitement de l'incident demain dans la journée
Mar 28 jan 2025 13:58:05 CET
L'accès à l'espace /tmpdir a été partiellement rétabli.
Certains fichiers peuvent demeurer inaccessibles. Dans ce cas des messages de ce type peuvent apparaitre :
[olympe @olympelogin1 ~]$ ll /tmpdir/xxx
ls: cannot access
La cause ayant entrainer l'incident a été identifiée. Elle est en cours de traitement.
Mar 28 jan 2025 10:12:05 CET
Il y'a un incident en cours sur le système de calcul Olympe.
L'accès à l'espace /tmpdir est très perturbé, voire impossible.
Les équipes CALMIP & EVIDEN sont en cours d'investigation.
Désolé pour le désagrément.
Equipe CALMIP