Warum der Ausfall von Facebook viele Mitarbeiter aus ihren eigenen Büros verbannte

Der Ausfall bei Facebook hat dazu geführt, dass viele Mitarbeiter ihre eigenen Büros nicht mehr nutzen konnten, aber wie konnte das passieren? Wir tauchen tief ein und erklären wie.

Facebook, Instagram und WhatsApp gestern ist alles kaputt gegangen. Sie haben wahrscheinlich davon gehört, da nicht nur diese drei davon gehört haben fest Dienste werden für sechs Stunden offline geschaltet, aber auch einige andere Websites wurden dadurch vom Netz genommen. Es führte auch zu einigen humorvollen Informationen von Facebook, einschließlich der Tatsache, dass mehrere Facebook-Mitarbeiter infolgedessen aus ihren Büros verbannt wurden. Aber was genau ist passiert?

Grundlegendes zum Border Gateway Protocol (BGP)

Vieles davon wird vereinfacht und gekürzt, um die Grundkonzepte dessen zu erklären, was bei Facebook schief gelaufen ist. Cloudflare hat ein fantastischer technischer Bericht über die gesamte Situation, wenn Sie eine völlig detaillierte technische Analyse mit Daten aus ihrem eigenen DNS wünschen.

Wenn Sie eine Website besuchen, ist die von Ihnen eingegebene, für Menschen lesbare Domäne, die aus Buchstaben und Zahlen besteht, nicht vorhanden Genau genommen was Sie direkt mit der Website verbindet, die Sie besuchen möchten. Stattdessen werden sie einer IP-Adresse zugeordnet, die ein Domain Name Server für Sie findet. Größer und wichtiger ist BGP, was für Border Gateway Protocol steht. Dieser Mechanismus fungiert effektiv als Austausch, der Informationen zwischen autonomen Systemen über das Internet weiterleitet. Es ist praktisch das Rückgrat des gesamten Internets, das alles zusammenhält und es einem Netzwerk ermöglicht, seine Existenz anderen Netzwerken gegenüber bekannt zu machen.

Wenn wir das Internet nutzen, interagieren wir mit Tausenden von Internetdienstanbietern, Routern und Servern. Jede Website, die Sie besuchen, jede Verbindung, die im Hintergrund weitergeleitet wird, sie alle nehmen Kontakt mit mehreren Systemen auf, die alle in direkter Beziehung zueinander stehen. Das BGP zeigt Ihrem Computer, Smartphone oder jedem anderen Gerät effektiv den besten Weg an Ihr Ziel. Zu den Aufgaben von BGP gehört es auch, den besten Weg von Ihrem Gerät zu Ihrem Ziel zu finden.

Das BGP verbindet insbesondere autonome Systeme, und diese autonomen Systeme gehören einzelnen Einheiten und verfügen über ein eigenes Netzwerk. Dabei kann es sich um einen Internetdienstanbieter, ein großes Unternehmen oder sogar eine Universität handeln. Ich habe letzten Monat meinen Abschluss am University College Dublin gemacht und es verfügt über ein eigenes autonomes System, das 1993 eingerichtet wurde. Informationen zu diesen Systemen sind öffentlich.

Das Problem ist, dass das Internet ein lebendiges, atmendes Wesen ist. Diese Netzwerke aktualisieren sich ständig und autonome Systeme teilen jeweils ihre eigenen Netzwerke miteinander die ganze Zeit. Dieses Netzwerk wird dann aufgebaut, indem verschiedene autonome Systeme miteinander kommunizieren und ihre eigene Karte des Internets erstellen. Bekanntlich, als die pakistanische Regierung 2008 versuchte, YouTube zu verbieten, nutzte es BGP, um YouTube in ein Schwarzes Loch zu leiten. Da dies dann mit anderen autonomen Systemen geteilt wurde, die diese Konfiguration kopierten, wurde fast der gesamte YouTube-Verkehr in ein schwarzes Loch in Pakistan geleitet. YouTube selbst war völlig in Ordnung, aber der Missbrauch des BGP-Routings hat die Website vorübergehend lahmgelegt.

Die Rolle von Facebook spielt dabei eine Rolle

Hier liegt das Problem: Facebook betreibt seinen eigenen Satz von Domain Name Servern. Diese sind dafür verantwortlich, Ihren Internetdienstanbieter und alle Vermittler darüber zu informieren Route, wo „Facebook“ (und alle anderen Produkte des Unternehmens, wie Instagram und WhatsApp) tatsächlich Ist. Facebook hat die Übertragung von BGP-Routing-Informationen an seine eigenen Domain-Name-Server eingestellt, die diese Informationen an autonome Systeme weltweit weiterleiten. Dies bedeutete, dass Facebook sich faktisch vom Internet abgekoppelt hatte. Brian Krebs, ein Cybersicherheitsreporter, sagte, es handele sich offenbar um ein „routinemäßiges BGP-Update, das fehlgeschlagen ist“.

In der ersten Obduktion von Facebook hieß es:

Unsere Technikteams haben erfahren, dass Konfigurationsänderungen an den Backbone-Routern, die den Netzwerkverkehr zwischen unseren Rechenzentren koordinieren, Probleme verursachten, die diese Kommunikation unterbrachen. Diese Unterbrechung des Netzwerkverkehrs hatte einen kaskadenartigen Effekt auf die Art und Weise, wie unsere Rechenzentren kommunizieren, und führte dazu, dass unsere Dienste zum Erliegen kamen.

Später ist das Unternehmen mehr ausführliche Aufschlüsselung der Situation lieferte weitere Informationen.

Während einer dieser routinemäßigen Wartungsarbeiten wurde ein Befehl erteilt, um die Verfügbarkeit des globalen Backbones zu bewerten Kapazität, die unbeabsichtigt alle Verbindungen in unserem Backbone-Netzwerk lahmlegte und Facebook-Rechenzentren effektiv lahmlegte global.

Facebook erklärte dann weiter, dass sie ihre BGP-Werbung zurückziehen, wenn ihre DNS-Server nicht mit ihren Rechenzentren kommunizieren können. Dies hat Facebook vom Rest der Welt abgeschnitten und sein DNS völlig unerreichbar gemacht. Das Unternehmen sprach auch darüber, wie schwierig es für die Techniker sei, vor Ort zu sein, um das Problem zu beheben. Das macht Sinn, da in mehreren Berichten davon die Rede war, dass Facebook-Mitarbeiter Probleme hatten, überhaupt auf ihre Facebook-Seite zuzugreifen Büros.

Globale Auswirkungen

Der hervorragende Artikel von Cloudflare geht detailliert auf einige der festgestellten Probleme sowie auf einige der Auswirkungen ein, die der Ausfall von Facebook mit sich brachte. Cloudflare betreibt seinen eigenen DNS, 1.1.1.1, und der Anbieter stellte fest, dass die eigene Website von Facebook nicht mehr aufgelöst wurde. Tatsächlich befürchteten sie, dass es sich um ein Problem mit ihren Systemen handelte. Facebook hatte die Übertragung von Routing-Informationen an sein DNS eingestellt, was bedeutete, dass sein DNS nicht verfügbar war.

Als Facebook die Übertragung von Routen einstellte, gerieten die DNS-Resolver außer Kontrolle. Zwischen Anwendungen, die ständig versuchen, sich wieder mit Facebook zu verbinden, und menschlichem Verhalten Dies führte zu Spam auf den Facebook-Servern, ein „Tsunami“ an zusätzlichem DNS-Verkehr traf Cloudflare Server.

Lustigerweise einige Besitzer von Huawei-Geräten stellten fest, dass sie auch keine Verbindung mehr zu Wi-Fi-Netzwerken herstellen konnten. Es ist möglich, dass Huawei auf die eine oder andere Weise die Server von Facebook nutzt, um zu überprüfen, ob eine Internetverbindung aktiv ist. Es könnte auch ein unglücklicher Zufall gewesen sein.

Es wird aber noch schlimmer. Als Facebook zusammenbrach, stellte Cloudflare fest, dass die Anfragen für andere Plattformen wie Twitter, Signal, Telegram und TikTok zunahmen. Auch Twitter begann unter der Last zu kämpfen, und für ein paar Minuten dachten viele dass es auch sinken würde.

Auch Websites, die Single Sign-On mit Facebook nutzen, hatten Probleme, da sich viele Nutzer nicht einmal anmelden konnten. Das gesamte Internet hatte in vielerlei Hinsicht Probleme, und Dienste auf der ganzen Welt beschwerten sich. Einige Stunden später ging Facebook wieder online.

Wenn dieses ganze Debakel eines beweist, dann Eva Galperin, Direktorin für Cybersicherheit bei der Electronic Frontier Foundation sagt: „Das Internet wird mit Kaugummi und Schnüren zusammengehalten“.