La grosse panne d’AT&T de cette année a été pire que nous le pensions

Le 22 février de cette année, AT&T a subi une panne massive après une mise à jour bâclée du réseau. Aujourd'hui, des mois plus tard, l'ampleur de la panne a été révélée – et elle est bien plus importante que ce que nous pensions à l'époque.

"Tous les services de voix et de données 5G pour les clients sans fil d'AT&T étaient indisponibles, affectant plus de 125 millions d'appareils, bloquant plus de 92 millions d'appels vocaux et empêchant plus de 25 000 appels vers les centres d'appels 911", a déclaré la Commission fédérale des communications (FCC). son rapport .

Les échecs du 911 constituent ici le plus gros problème pour des raisons faciles à comprendre. Il n’y a rien de pire que d’essayer de joindre le 911 en cas d’urgence et de ne pas pouvoir passer. Le rapport de la FCC montre qu'AT&T a tenté de restaurer FirstNet (First Responder Network Authority) avant les utilisateurs résidentiels et commerciaux d'AT&T, ce qui semble être la bonne façon de procéder.

Site Web Down Detector montrant une carte des pannes pour AT&T le 22 février 2024.
Carte de Down Detector de la panne du 22 février. Détecteur de duvet

Cependant, la FCC a également critiqué AT&T pour plusieurs échecs, en plus de ne pas avoir testé la mise en œuvre du changement de réseau. La FCC a souligné un manque de surveillance et de contrôles pour garantir que les processus ont été suivis ou que les processus eux-mêmes étaient insuffisants. AT&T n'était pas non plus préparé à la congestion causée par les appareils des utilisateurs tentant de se reconnecter au réseau en même temps. Le réseau d'AT&T n'était pas suffisamment robuste pour atténuer la congestion.

La panne a touché les 50 États et territoires, dont Washington, DC, Porto Rico et les îles Vierges américaines. La FCC a critiqué AT&T dans le rapport pour ne pas avoir suivi les meilleures pratiques, qui exigent que toutes les modifications du réseau soient minutieusement testées, examinées et approuvées avant leur mise en œuvre. La panne a mis plus de 12 heures à AT&T pour résoudre et restaurer complètement le service.

Si cela vous semble un peu familier, c'est parce qu'il est très similaire à la panne de Crowdstrike , qui a détruit les appareils Microsoft dans le monde la semaine dernière et a également impliqué le déploiement d'une mise à jour non testée avec un code défectueux qui a tout cassé. C'est également assez familier car Verizon a subi une panne similaire avec un fichier de mise à jour défectueux en décembre 2022, ce qui lui a valu une pénalité de la FCC et l'a soumis à un jugement de consentement.

Au crédit d'AT&T, l'opérateur a au moins reconnu la responsabilité de la panne et a accordé aux clients concernés un crédit de 5 $ , qui ne couvrait probablement même pas une fraction des factures de téléphone de la plupart des gens. Du côté positif, les conséquences de la FCC seront probablement plus graves, le bureau de la sécurité publique et de la sécurité intérieure renvoyant l'affaire au bureau d'application de la FCC pour enquêter sur une violation potentielle des règles de la FCC.

Un écran bleu de la mort sur un écran de télévision à l’aéroport LaGuardia de New York.
Un moniteur défectueux à l'aéroport LaGuardia de New York pendant la panne de Crowdstrike Phil Nickinson / Digital Trend

S'il est reconnu responsable, AT&T pourrait être condamné à payer une amende plus importante et à mettre en œuvre un plan de conformité, tout comme Verizon l'a fait le mois dernier lorsqu'il a dû payer une amende de 1,05 million de dollars pour sa panne en décembre 2022. En termes de correctifs, dans les deux jours suivant la panne, AT&T a mis en place de nouveaux contrôles techniques.

« Cela impliquait d'analyser le réseau à la recherche de tous les éléments du réseau dépourvus des contrôles qui auraient empêché la panne, et de mettre rapidement ces contrôles en place. AT&T s'est engagé dans des travaux médico-légaux en cours et a mis en œuvre des améliorations supplémentaires pour promouvoir la robustesse et la résilience du réseau », a déclaré la FCC. La société a également « mis en œuvre des mesures supplémentaires en matière d’examen par les pairs et adopté des procédures pour garantir que les travaux de maintenance ne peuvent pas avoir lieu sans confirmation que les examens par les pairs requis ont été effectués ».

Cela devrait aider à prévenir de futures pannes, du moins pour AT&T. Cependant, il semble que les échecs qui conduisent à la suppression de mises à jour non testées soient répandus dans l’ensemble du secteur. Nous espérons donc que cela servira de signal d’alarme pour les entreprises.