La panne chez Facebook a empêché de nombreux employés de leur propre bureau, mais comment est-ce arrivé? Nous plongeons en profondeur et expliquons comment.
Facebook, Instagram et WhatsApp tout s'est effondré hier. Vous en avez probablement entendu parler, étant donné que non seulement ces trois massif les services sont mis hors ligne pendant six heures, mais quelques autres sites Web ont également été supprimés. Cela a également donné lieu à des informations humoristiques provenant de Facebook, notamment le fait que plusieurs employés de Facebook ont été exclus de leurs bureaux. Mais que s’est-il passé exactement ?
Comprendre le protocole Border Gateway (BGP)
Une grande partie de cela est simplifiée et réduite afin d’expliquer les concepts de base de ce qui n’a pas fonctionné chez Facebook. Cloudflare a une fantastique rédaction technique sur l'ensemble de la situation si vous souhaitez une analyse technique complètement approfondie avec les données de leur propre DNS.
Chaque fois que vous visitez un site Web, le domaine lisible par l'homme que vous saisissez, composé de lettres et de chiffres, n'est pas
en fait ce qui vous connecte directement au site Web que vous souhaitez visiter. Au lieu de cela, ils correspondent à une adresse IP qu'un serveur de noms de domaine trouve pour vous. Plus gros et plus important que cela est BGP, qui signifie Border Gateway Protocol. Ce mécanisme agit effectivement comme un échange qui achemine les informations entre des systèmes autonomes via Internet. C'est en fait l'épine dorsale d'un Internet plus large qui relie le tout et c'est ainsi qu'un réseau peut annoncer son existence à d'autres réseaux.Lorsque nous utilisons Internet, nous interagissons avec des milliers de fournisseurs de services Internet, de routeurs et de serveurs. Chaque site Web que vous visitez, chaque connexion acheminée en arrière-plan, entrent en contact avec plusieurs systèmes qui sont tous directement indépendants les uns des autres. Le BGP montre efficacement à votre ordinateur ou smartphone ou tout autre appareil le meilleur moyen d'arriver à votre destination. Une partie du travail de BGP consiste également à trouver le meilleur chemin depuis votre appareil jusqu'à votre destination.
Le BGP connecte notamment les systèmes autonomes, et ces systèmes autonomes appartiennent à des entités singulières et disposent de leur propre réseau. Il peut s’agir d’un fournisseur d’accès Internet, d’une grande entreprise ou même d’une université. J'ai obtenu mon diplôme de l'University College Dublin le mois dernier et il dispose de son propre système autonome qui a été attribué en 1993. Les informations sur ces systèmes sont publiques.
Le problème est qu’Internet est un être vivant et respirant. Ces réseaux sont constamment mis à jour et les systèmes autonomes partagent chacun leurs propres réseaux. tout le temps. Ce réseau est ensuite construit par différents systèmes autonomes qui communiquent entre eux et créent leur propre carte d'Internet. Communément, lorsque le gouvernement pakistanais a tenté d'interdire YouTube en 2008, il a utilisé BGP pour acheminer YouTube vers un trou noir. Parce que cette configuration a ensuite été partagée avec d'autres systèmes autonomes qui ont copié cette configuration, la quasi-totalité du trafic de YouTube a été acheminée vers un trou noir au Pakistan. YouTube lui-même fonctionnait parfaitement, mais l'abus du routage BGP a effectivement tué temporairement le site Web.
Le rôle de Facebook à jouer
Voici le problème: Facebook exploite son propre ensemble de serveurs de noms de domaine. Ceux-ci sont chargés d'informer votre fournisseur d'accès Internet et tous les intermédiaires concernés itinéraire où « Facebook » (et tous les autres produits de l'entreprise, comme Instagram et WhatsApp) est. Facebook a cessé de diffuser les informations de routage BGP vers ses propres serveurs de noms de domaine, qui diffusent ces informations vers des systèmes autonomes dans le monde entier. Cela signifiait que Facebook s'était effectivement déconnecté d'Internet. Brian Krebs, journaliste en cybersécurité, a déclaré qu'il semblait s'agir d'une « mise à jour de routine de BGP qui avait mal tourné ».
Dans l'autopsie initiale de Facebook, il était dit ce qui suit :
Nos équipes d'ingénierie ont appris que les changements de configuration sur les routeurs fédérateurs qui coordonnent le trafic réseau entre nos centres de données provoquaient des problèmes qui interrompaient cette communication. Cette perturbation du trafic réseau a eu un effet en cascade sur la façon dont nos centres de données communiquent, entraînant l'arrêt de nos services.
Plus tard, l'entreprise est devenue plus analyse approfondie de la situation a fourni plus d'informations.
Au cours de l'un de ces travaux de maintenance de routine, une commande a été émise dans le but d'évaluer la disponibilité du réseau fédérateur mondial. capacité, ce qui a involontairement interrompu toutes les connexions de notre réseau fédérateur, déconnectant ainsi les centres de données de Facebook à l'échelle mondiale.
Facebook a ensuite expliqué que lorsque leurs serveurs DNS ne peuvent pas communiquer avec leurs centres de données, ils retirent leurs publicités BGP. C’est ce qui a coupé Facebook du reste du monde et qui a rendu son DNS totalement inaccessible. L'entreprise a également expliqué à quel point il était difficile pour les ingénieurs de se rendre sur place pour résoudre le problème. ce qui est logique, car plusieurs rapports parlent de la façon dont le personnel de Facebook a eu des problèmes même pour saisir leur des bureaux.
Des conséquences mondiales
L'excellent article de Cloudflare détaille certains des problèmes rencontrés, ainsi que certaines des ramifications résultant de la panne de Facebook. Cloudflare exploite son propre DNS, 1.1.1.1, et le fournisseur a constaté que le site Web de Facebook ne résolvait plus. En fait, ils craignaient que ce soit un problème avec leurs systèmes. Facebook avait cessé de diffuser les informations de routage vers son DNS, ce qui signifiait que son DNS n'était pas disponible.
Lorsque Facebook a arrêté de diffuser des routes, les résolveurs DNS se sont détraqués. Entre les applications qui tentent de se reconnecter constamment à Facebook, et le comportement humain aussi entraînant du spam vers les serveurs de Facebook, un « tsunami » de trafic DNS supplémentaire a frappé celui de Cloudflare les serveurs.
Curieusement, certains Propriétaires d'appareils Huawei ont noté qu’ils ne pouvaient plus non plus se connecter aux réseaux Wi-Fi. Il est possible que Huawei utilise les serveurs de Facebook d'une manière ou d'une autre pour vérifier si une connexion Internet est active. Il se pourrait aussi que ce soit une malheureuse coïncidence.
Mais c'est encore pire. Lorsque Facebook est tombé en panne, Cloudflare a noté que les requêtes sur d'autres plateformes comme Twitter, Signal, Telegram et TikTok avaient augmenté. Twitter a également commencé à lutter sous la charge, et pendant quelques brèves minutes, beaucoup pensaient que ça baisserait aussi.
Les sites Web qui utilisent l'authentification unique avec Facebook ont également rencontré des problèmes, car de nombreux utilisateurs ne pouvaient même pas se connecter. L’ensemble de l’Internet a rencontré des problèmes à bien des égards, et les services du monde entier se sont plaints. Quelques heures plus tard, Facebook est revenu en ligne.
Si toute cette débâcle prouve une chose, c'est bien comme le dit Eva Galperin, directrice de la cybersécurité à l'Electronic Frontier Foundation. dit: "Internet tient avec du chewing-gum et de la ficelle".