Hier, nous vous expliquions les symptômes de la panne historique qui touche la ligne 1 depuis jeudi midi. Nous apportions nos premières informations et éléments d’analyse, pour en savoir plus qu’une simple « panne informatique ». Aujourd’hui, nous en savons encore plus.
Des essais en boucle
Ce vendredi, les équipes ont étés pleinement mobilisées afin de diagnostiquer la panne, sans succès. La ligne subissait des interruptions sans cesse, toutes les 20 minutes environs. Tout cela ne permettait pas une exploitation normale. Plusieurs hypothèses ont étés écartées, comme celle d’un piratage informatique ou un problème d’une éventuelle mise à jour.
Ce samedi matin, une information nous est remontée confirmant qu’Alstom a mis la main sur le problème. Sur place, nous avons pu observer des essais d’abord capricieux, puis après quelques interruptions, une fluidité comme avant. Avec un carrousel de rame souvent consistant et une fréquence régulière allant de 1’45 à 1’15 (ce qu’on peut retrouver habituellement), les choses s’annonçaient bien.
Jusqu’en fin de journée, les marches à blanc ont perdurées, tandis que des informations nous parvenaient concernant une reprise du service commercial bientôt. La version du pilote automatique n’étant pas en cause, le but de ces essais était d’éprouver le système et confirmer que l’origine de la panne est bien celle qui a été trouvée.
Là où certaines personnes voyaient le fait que les rames ne s’arrêtaient ni à Lille Flandres ou Porte des Postes comme un signe de problème, alors que c’était en fait parfaitement normal, nous avons analysés plus en détails les différents mouvements pour tirer les bonnes conclusions. Nous avons d’ailleurs observés beaucoup de situations dégradées, qui n’étaient qu’autre que des tests voulus.
Une synchronisation impossible
Le diagnostique principal de la panne est en fait le « plantage » d’une des machines mères. Pour faire simple, pour que tout les systèmes puissent communiquer ensemble sans problème, une machine se charge de synchroniser l’horloge pour tout le monde. Cela permet qu’une station soit à la même heure, à la seconde près, que le train qui arrive, et que la communication soit fluide et cohérente. On retrouve ce type d’équipement un peu partout, par exemple dans le monde de la télévision en direct, ou avec internet en général.
L’arrêt soudain de cet équipement de synchronisation a entrainé, par effet domino, le plantage d’ordinateurs nécessaires à la supervision des trains. Des décalages étaient observés entre 2 mêmes systèmes identiques (à hauteur de 30 secondes), ce qui a eu pour effet une incompréhension globale entre les systèmes. Nous prenions hier l’exemple de l’arrêt en station, portes fermées, qui durait plusieurs minutes.
Même si les passagers étaient en sécurité absolue dans les trains, il était impossible d’avoir un œil précis sur ce qui se passait à distance: par exemple, la position d’un train au Poste de Commandes était décalée de plusieurs minutes par rapport à sa position réelle, sur le terrain. La sécurité primant avant tout, le service a bien évidemment été arrêté.
Cet équipement critique, et pourtant très simple, a paralysé la ligne entière pendant 45 heures. Les équipes étant désormais au courant de la source, n’auront plus autant de mal à relancer le système si celui subit les mêmes symptômes.
Conclusions
Quelle est l’origine de la panne ?
Un simple ordinateur assurant le rôle de synchronisation entre les différents équipements critiques du système qui a cessé brutalement de fonctionner.
Le défaut provient-il de la nouvelle version du pilote automatique ?
Non. Ni même du pilote automatique en lui même ou des trains.
Cette panne peut-elle se reproduire souvent ?
À vrai dire, il est rare que ce type d’équipement plante. C’est d’ailleurs pour cela que les vérifications ne se sont pas portées sur cela d’abord. Mais le risque 0 n’existe pas.
Les marches à blanc étaient-elles signe de stabilité fragile du système ?
Non. C’était simplement pour éprouver le système et effacer les doutes. Les situations dégradées qui ont étés observées ce samedi étaient donc parfaitement normales.
MobiLille remercie enfin toutes les équipes qui ont étés mobilisées plusieurs jours durant cette panne historique.
Amaury CROCQUEFER
Étudiant passionné du métro lillois, d'informatique et d'électronique.
Développeur de l'application MobiLille et vice-président de l'association éponyme.