Au milieu de la crise : une chose que CrowdStrike et Microsoft ne peuvent pas réparer
Je n'ai vu qu'un seul écran bleu de la mort le dimanche 21 juillet, au cours d'un voyage de 15 heures via deux des plus grands aéroports du pays, deux jours seulement après qu'une mise à jour logicielle bâclée ait paralysé des millions d'ordinateurs d'entreprise exécutant le système d'exploitation Windows.
"Peut-être que tout va bien", je me souviens avoir pensé alors que ma famille faisait les premiers pas à l'aéroport LaGuardia de New York vers 9 heures du matin. Les gros titres étaient contraires au troisième jour de la grande panne de fenêtres de 2024 , la zone de billetterie et de bagages n'avait pas l'air trop. mauvais.
J'aurais du être mieux informé. J'avais fait littéralement deux pas à l'intérieur du bâtiment avant de recevoir le premier des quelque 3 000 e-mails de retard de Delta au cours de la journée, accompagnés d'encore plus de notifications des applications Flighty et Fly Delta. Cela n'allait pas être un voyage facile de New York à la Floride, ce que j'ai fait des dizaines de fois au fil des ans.
Je ne suis pas étranger aux retards de vol. ( J'ai passé 15 heures au Sky Club de LAX fin janvier – ce n'est pas quelque chose que je recommande, malgré sa qualité.) Mais celui-ci était différent. Le temps arrive. Des problèmes mécaniques surviennent. Ils sont nuls, mais tout cela se résume à la sécurité. Cette fois? Un fournisseur de sécurité tiers a bâclé un fichier dans Windows. CrowdStrike aurait dû l'attraper. Microsoft aurait dû le comprendre. Ni l’un ni l’autre ne l’a fait jusqu’à ce qu’il soit trop tard. Même si le correctif était relativement simple – démarrer en mode sans échec ou continuer à redémarrer la machine jusqu'à ce que le fichier défectueux soit remplacé – les effets de premier ordre étaient immenses.
Ce sont les effets de deuxième et de troisième ordre qui ont vraiment détérioré pour les compagnies aériennes. Delta a été particulièrement touchée : le PDG Ed Bastian a écrit dimanche que plus de 3 500 vols avaient été annulés jusqu'à samedi, et bien d'autres dimanche. "S'il vous plaît, venez me voir sur le podium si vous avez besoin d'un câlin", a déclaré notre agent d'entrée vers 16h30 dimanche alors que le tableau se rafraîchissait pour lire ANNULÉ.
La file d'attente pour le bureau de changement de réservation dans le hall A d'Atlanta – l'un des sept terminaux de l'aéroport le plus fréquenté du pays – était comiquement (ou tragiquement) longue. Je suis resté assis avec un seul écouteur, en attente avec la ligne de réservation de la compagnie aérienne pendant deux heures avant d'abandonner. (Mon frère, qui a un statut de voyageur fréquent beaucoup plus élevé, a au moins réussi à se faire dire par une vraie personne que je ne pouvais pas sortir avant minuit et que la meilleure chose à faire était de s'en tenir au vol assigné pour maintenant.)
Finalement à bord au petit matin du mardi 22 juillet, une hôtesse de l'air nous a donné une idée de ce qui mettait vraiment un frein aux choses : Delta ne savait pas où se trouvaient ses équipages. Cela a été confirmé plus tard dans la journée dans un autre article de Delta , qui indiquait que plus de la moitié de son système informatique exécutait Windows et qu'un temps de synchronisation supplémentaire était nécessaire même après le redémarrage des machines concernées.
"Les équipes de Delta disposent d'un effectif complet et sont prêtes à servir nos clients", poursuit le message. "Mais l'un des systèmes les plus critiques de Delta – qui garantit que tous les vols ont un équipage complet au bon endroit et au bon moment – est profondément complexe et nécessite le plus de temps et d'assistance manuelle pour se synchroniser."
Nous sommes finalement rentrés à la maison vers 2 heures du matin, fatigués. Un peu épuisé. Mais seulement huit heures de retard environ, au total. Nous avons eu de la chance. Mon frère a passé environ 30 heures à l'aéroport d'Atlanta deux jours plus tôt, essayant simplement de rentrer chez lui à Pensacola après avoir interrompu un voyage sur la côte ouest. Pas de vols. Pas de location de voiture en aller simple. Sauf pour l'attente, il n'y a pas d'autre véritable option que quelqu'un qui conduit cinq heures dans chaque sens pour un sauvetage.
Nos histoires n’étaient que deux parmi des milliers – et les nôtres avaient des enjeux relativement faibles. Nous n'avions pas d'enfants voyageant seuls. Nous n'avions pas beaucoup d'argent, à part quelques repas que nous n'avions pas prévu de prendre dans un aéroport. Nos sacs sont arrivés dans le même avion.
La solution immédiate à l’échec de CrowdStrike était assez simple. CrowdStrike et Microsoft doivent mettre en place des politiques pour atténuer la possibilité que cela se reproduise. (Cela se reproduira bien sûr.) Mais comme le dit le proverbe – et c'est la version PG-13 – les excréments coulent en descente. Rien de tout cela n’était la faute des compagnies aériennes. Mais c’est vite devenu un gâchis à nettoyer.
Et c’est quelque chose qu’un simple redémarrage ne peut pas résoudre. Même si vous le faitesplus de 8 millions de fois .