Waarom de storing van Facebook veel werknemers uit hun eigen kantoor sloot

click fraud protection

Door de storing bij Facebook moesten veel medewerkers hun eigen kantoor verlaten, maar hoe gebeurde dat? We duiken diep en leggen uit hoe.

Facebook, Instagram en WhatsApp gisteren allemaal gevallen. Je hebt er waarschijnlijk van gehoord, aangezien niet alleen die drie dat deden enorm services worden zes uur lang offline gehaald, maar ook een paar andere websites worden offline gehaald. Het leidde ook tot enkele humoristische weetjes van informatie die van Facebook kwamen, waaronder het feit dat meerdere Facebook-werknemers als gevolg daarvan buiten hun kantoor werden gesloten. Maar wat gebeurde er precies?

Border Gateway Protocol (BGP) begrijpen

Veel hiervan is vereenvoudigd en ingekort om de basisconcepten uit te leggen van wat er mis ging bij Facebook. Cloudflare heeft een fantastisch technisch artikel over de hele situatie als u een volledig diepgaande technische analyse wilt, compleet met gegevens uit hun eigen DNS.

Wanneer u een website bezoekt, is het voor mensen leesbare domein dat u typt, bestaande uit letters en cijfers, dat niet

Eigenlijk wat u rechtstreeks verbindt met de website die u wilt bezoeken. In plaats daarvan verwijzen ze naar een IP-adres dat een Domain Name Server voor u vindt. Groter, belangrijker dan dat is BGP, wat staat voor Border Gateway Protocol. Dit mechanisme fungeert effectief als een uitwisseling die informatie tussen autonome systemen via internet routeert. Het is in feite de ruggengraat van het bredere internet dat alles samenbindt en waarmee het ene netwerk zijn bestaan ​​aan andere netwerken kan bekendmaken.

Wanneer we internet gebruiken, hebben we interactie met duizenden internetproviders, routers en servers. Elke website die je bezoekt, elke verbinding die op de achtergrond wordt gerouteerd, ze maken allemaal contact met verschillende systemen die allemaal direct niets met elkaar te maken hebben. De BGP toont uw computer of smartphone of een ander apparaat effectief de beste manier om uw bestemming te bereiken. Een deel van de taak van BGP is ook het vinden van het beste pad van uw apparaat naar uw bestemming.

Het BGP verbindt met name autonome systemen. Deze autonome systemen zijn eigendom van afzonderlijke entiteiten en beschikken over een eigen netwerk. Dit kunnen een internetprovider, een groot bedrijf of zelfs een universiteit zijn. Ik ben vorige maand afgestudeerd aan het University College Dublin, en het heeft zijn eigen autonome systeem dat in 1993 werd toegewezen. Informatie over deze systemen is openbaar.

Het probleem is dat internet een levend, ademend wezen is. Deze netwerken worden voortdurend bijgewerkt en autonome systemen delen elk hun eigen netwerken met elkaar altijd. Dit netwerk wordt vervolgens opgebouwd door verschillende autonome systemen die met elkaar praten en hun eigen kaart van het internet creëren. Beroemd, toen de Pakistaanse regering in 2008 YouTube probeerde te verbieden, gebruikte het BGP om YouTube in een zwart gat te leiden. Omdat dit vervolgens werd gedeeld met andere autonome systemen die die configuratie kopieerden, werd bijna al het verkeer van YouTube naar een zwart gat in Pakistan geleid. YouTube zelf was prima in orde, maar misbruik van BGP-routing heeft de website tijdelijk gedood.

De rol van Facebook is te spelen

Hier is het probleem: Facebook beheert zijn eigen set domeinnaamservers. Deze zijn verantwoordelijk voor het informeren van uw internetprovider en alle tussenpersonen daarin route waar "facebook" (en alle andere producten van het bedrijf, zoals Instagram en WhatsApp) eigenlijk is. Facebook stopte met het uitzenden van BGP-routeringsinformatie naar zijn eigen domeinnaamservers, die die informatie naar autonome systemen over de hele wereld uitzenden. Dit betekende dat Facebook zich feitelijk had losgekoppeld van het internet. Brian Krebs, een cybersecurity-verslaggever, zei dat het leek op een "routinematige BGP-update die fout is gegaan".

In de eerste post-mortem van Facebook stond het volgende:

Onze technische teams hebben ontdekt dat configuratiewijzigingen op de backbone-routers die het netwerkverkeer tussen onze datacenters coördineren, problemen veroorzaakten die deze communicatie onderbraken. Deze verstoring van het netwerkverkeer had een trapsgewijs effect op de manier waarop onze datacenters communiceren, waardoor onze services werden stopgezet.

Later is het bedrijf meer diepgaande afbraak van de situatie gaf meer informatie.

Tijdens een van deze routinematige onderhoudswerkzaamheden werd een bevel uitgevaardigd met de bedoeling de beschikbaarheid van de mondiale backbone te beoordelen capaciteit, waardoor onbedoeld alle verbindingen in ons backbone-netwerk werden verbroken, waardoor Facebook-datacenters feitelijk werden losgekoppeld wereldwijd.

Facebook legde vervolgens uit dat wanneer hun DNS-servers niet met hun datacenters kunnen communiceren, ze hun BGP-advertenties intrekken. Dit is wat Facebook afsloot van de rest van de wereld en waardoor de DNS volledig onbereikbaar werd. Het bedrijf vertelde ook hoe moeilijk het was voor technici om ter plaatse te komen om het probleem op te lossen. wat logisch is, aangezien meerdere rapporten spraken over hoe Facebook-personeel zelfs problemen had met het invoeren van hun kantoren.

Mondiale gevolgen

Het uitstekende artikel van Cloudflare gaat gedetailleerd in op enkele van de problemen die het heeft opgemerkt, samen met enkele gevolgen als gevolg van het failliet van Facebook. Cloudflare beheert zijn eigen DNS, 1.1.1.1, en de provider zag dat de eigen website van Facebook niet meer oploste. Ze waren zelfs bang dat het een probleem met hun systemen was. Facebook was gestopt met het uitzenden van routeringsinformatie naar zijn DNS, wat betekent dat zijn DNS niet beschikbaar was.

Toen Facebook stopte met het uitzenden van routes, gingen DNS-resolvers in de war. Tussen applicaties die voortdurend opnieuw verbinding proberen te maken met Facebook, en ook menselijk gedrag resulterend in spam richting de servers van Facebook, trof een "tsunami" van extra DNS-verkeer Cloudflare's servers.

Grappig genoeg, sommigen Eigenaars van Huawei-apparaten merkten op dat ze ook geen verbinding meer konden maken met wifi-netwerken. Het is mogelijk dat Huawei op de een of andere manier de servers van Facebook gebruikt om te verifiëren of er een internetverbinding actief is. Het kan ook een ongelukkig toeval zijn geweest.

Het wordt echter nog steeds erger. Toen Facebook ten onder ging, merkte Cloudflare op dat het aantal zoekopdrachten naar andere platforms zoals Twitter, Signal, Telegram en TikTok steeg. Twitter begon ook te worstelen onder de last, en gedurende een paar minuten dachten velen dat het ook zou dalen.

Websites die single sign-on met Facebook gebruiken, kwamen ook in de problemen, omdat veel gebruikers niet eens konden inloggen. Het hele internet kwam in veel opzichten in de problemen en diensten over de hele wereld klaagden. Enkele uren later kwam Facebook weer online.

Als dit hele debacle één ding bewijst, is het wel Eva Galperin, directeur cybersecurity bij de Electronic Frontier Foundation. zegt: "het internet wordt bij elkaar gehouden met kauwgom en touwtje".