Aller au contenu principal
Chaos dans la société
Grains de Sable Numériques : Quand de petites défaillances causent de grands désordres

Le 19 juillet 2024, la société CrowdStrike, un des leaders mondial cybersécurité, a distribué une mise à jour qui a causé une panne d'une ampleur inédite. 8,5 millions de postes informatiques chez ses clients ont planté mettant à l'arrêt les entreprises. Cependant, cette panne, bien qu'exceptionnelle, n'est pas un cas isolé. Le monde a connu plusieurs pannes informatiques importantes, touchant divers secteurs et infrastructures critiques.

Ces incidents rappellent l'importance de la résilience des systèmes informatiques et des systèmes redondants. En l'espèce, disposer d'un poste informatique de secours prêt à l'emploi pour chaque collaborateur est impossible car trop couteux. Crowdstrike a vite réagit en proposant un correctif, fastidieux à mettre en oeuvre, chaque machine devant être traitée séparément, mais sans difficulté. Cette panne ne doit pas nous faire oublier des précédents qui bien d'ampleur moindre, n'en sont pas moins graves. A titre d'exemple, voici quatre grosses pannes informatiques de ces 25 dernières années.

Bug d'Amazon Web Services (AWS) en 2017 - Erreur humaine

En février 2017, Amazon Web Services (AWS), l'un des principaux fournisseurs de services cloud au monde, a subi une panne majeure qui a perturbé de nombreux sites web et applications dépendant de son infrastructure. Cette panne a été provoquée par une erreur humaine lors d'une opération de maintenance sur le service de stockage S3 (Simple Storage Service). Un technicien a accidentellement supprimé un ensemble de serveurs de commandes cruciaux, ce qui a entraîné une cascade de problèmes affectant les services S3 dans la région est des Etats-Unis. En conséquence, plus de 100 000 milles de sites web et services en ligne de ses clients, y compris des plateformes majeures telles que Netflix, Slack, l’app store, ont été indisponibles pendant plusieurs heures. Cet incident a mis en évidence la dépendance accrue des entreprises à l'égard des services cloud et l'importance d'avoir des plans de continuité robustes pour gérer les interruptions de service.

Le Bug Informatique de Toyota en 2009 - Erreur de programmation

En 2009, Toyota a été au cœur d'un scandale majeur lié à un bug informatique dans ses véhicules, entraînant des rappels massifs et des inquiétudes sur la sécurité de ses véhicules. Le problème, connu sous le nom de "sudden unintended acceleration" (accélération involontaire soudaine), faisait que certains véhicules Toyota accéléraient brusquement sans que le conducteur n'appuie sur la pédale d'accélérateur. Cette défaillance a été attribuée à plusieurs facteurs, dont des problèmes logiciels dans le système de contrôle électronique de l'accélérateur, ainsi que des défauts mécaniques comme des pédales d'accélérateur coincées et des tapis de sol mal ajustés. Des accidents mortels ont été associés à ce bug, ce qui a conduit à une crise de confiance chez les clients et a fortement entaché la réputation de la marque. Toyota a rappelé plus de 10 millions de véhicules dans le monde entier pour corriger ces problèmes et a été condamné à 1,2 Milliards de Dollars par les autorités américaines. Ces problèmes qui ont concerné plusieurs véhicules de la marque sur des périodes différentes, ont terni l'image de la marque qui avait fait preuve d'arrogance allant même jusqu'à prétendre que les conducteurs confondaient la pédale de frein et d'accélération. Quoiqu'il en soit, l'intégration de logiciels et de l'électronique embarquée et maintenant de l'IA dans les véhicules modernes reste un enjeu de sécurité, comme l'a encore prouvé les récents accidents provoqués par des véhicules autonomes.

Le Bug de la Division du Pentium en 1994 - Erreur de conception

Survenu en 1994, est un célèbre incident informatique qui a marqué l'histoire de l'informatique. Ce bug concernait les processeurs Intel Pentium et se manifestait par des erreurs de calcul lors des opérations de division en virgule flottante. Identifié pour la première fois par un professeur de mathématiques, Thomas Nicely, le problème provenait d'une faute dans l'algorithme utilisé par le processeur pour effectuer ces divisions, conduisant à des résultats incorrects dans certaines conditions très spécifiques. Bien que cette erreur, relativement simple, résultait en fait d'un problème dans la table de consultation des algorithmes de la puce avec une probabilité était de 1 sur 9 milliards. La révélation a provoqué un tollé parmi les utilisateurs et la communauté scientifique, car la précision des calculs était cruciale pour de nombreuses applications professionnelles et scientifiques. En réponse, Intel a mis en place un programme de remplacement gratuit des processeurs défectueux, mais a initialement sous-estimé l'impact du bug, ce qui a affecté la confiance des consommateurs. Cet incident aura une incidence sur le cours de l'action et le fondeur provisionnera 500 Millions de Dollars pour procéder à l'échange des processeurs défectueux, à condition que le consommateur reproduise l'erreur sur sa machine.

Le Bug Réseau AT&T en 1990 - Erreur dans une mise à jour.

En janvier 1990, AT&T, l'une des plus grandes entreprises de télécommunications aux États-Unis, a connu une panne réseau massive qui a paralysé son service de longue distance pendant environ neuf heures. Cette panne, qui a affecté des millions d'appels à travers le pays, a été causée par un bug logiciel dans le système de commutation électronique de l'entreprise. Ce système, essentiel pour la gestion et le routage des appels, contenait une erreur dans une mise à jour logicielle récente. Le bug se déclenchait lorsqu'un switch (commutateur) subissait une surcharge et tentait de redémarrer, entraînant un effet domino qui faisait tomber d'autres commutateurs en cascade. L'incident a eu des répercussions importantes, non seulement pour le public, mais aussi pour les entreprises et les services d'urgence qui dépendent des communications de longue distance. Cela a pu en avoir aussi pour les appels de secours et les urgences. AT&T a subi des pertes financières importantes et une atteinte à sa réputation, ce qui a conduit l'entreprise à revoir et renforcer ses procédures de test et de validation logicielle.

Voila quelques exemple pas si anciens qui nous rappellent qu'il faut relativiser l'incident provoqué par Crowdstrike. D'une part, l'entreprise a vite réagi et d'autre part, il n'y a pas eu de mise en danger. D'une manière générale, ces exemples illustrent à quel point nous sommes devenus dépendants des systèmes informatiques que ce soit pour tâches professionnelles ou du quotidien et cela en plein avénement de l'IA.