Hvorfor Facebooks strømbrudd stengte mange ansatte ute fra sine egne kontorer

Strømbruddet på Facebook stengte mange ansatte ute fra sine egne kontorer, men hvordan skjedde det? Vi dykker dypt og forklarer hvordan.

Facebook, Instagram og WhatsApp alt gikk ned i går. Du har sikkert hørt om det, gitt at ikke bare de tre gjorde det gigantisk Tjenester blir tatt offline i seks timer, men noen få andre nettsteder har blitt tatt ned med det også. Det førte også til noen humoristiske informasjonsbiter som kom ut av Facebook, inkludert det faktum at flere Facebook-ansatte ble stengt ute fra kontorene sine som et resultat. Hva skjedde egentlig?

Forstå Border Gateway Protocol (BGP)

Mye av dette er forenklet og kuttet ned for å forklare de grunnleggende konseptene for hva som gikk galt på Facebook. Cloudflare har en fantastisk teknisk artikkel på hele situasjonen dersom du ønsker en helt dybdegående teknisk analyse komplett med data fra deres egen DNS.

Hver gang du besøker et nettsted, er det menneskelesbare domenet du skriver, som består av bokstaver og tall, ikke faktisk det som kobler deg direkte til nettsiden du ønsker å besøke. I stedet tilordner de til en IP-adresse som en domenenavnserver finner for deg. Større, viktigere enn det er BGP, som står for Border Gateway Protocol. Denne mekanismen fungerer effektivt som en utveksling som ruter informasjon mellom autonome systemer over internett. Det er faktisk ryggraden i det bredere internett som binder det hele sammen og er hvordan ett nettverk kan annonsere sin eksistens til andre nettverk.

Når vi bruker internett, samhandler vi med tusenvis av internettleverandører, rutere og servere. Hver nettside du besøker, hver tilkobling som er rutet i bakgrunnen, de tar alle kontakt med flere systemer som alle er direkte ikke relatert til hverandre. BGP viser effektivt datamaskinen eller smarttelefonen din eller en hvilken som helst annen enhet den beste måten å komme til reisemålet på. En del av BGPs jobb er også å finne den beste veien fra enheten din til destinasjonen.

BGP kobler spesielt sammen autonome systemer, og disse autonome systemene eies av enkeltstående enheter og har sitt eget nettverk. De kan være en internettleverandør, et stort selskap eller til og med et universitet. Jeg ble uteksaminert fra University College Dublin forrige måned, og det har sitt eget autonome system som ble tildelt i 1993. Informasjon om disse systemene er offentlig.

Problemet er at internett er et levende, pustende vesen. Disse nettverkene oppdateres kontinuerlig, og autonome systemer deler hvert sitt nettverk med hverandre hele tiden. Dette nettverket bygges deretter opp av ulike autonome systemer som snakker med hverandre og lager sitt eget kart over internett. Berømt, da den pakistanske regjeringen forsøkte å forby YouTube i 2008, brukte den BGP for å rute YouTube inn i et svart hull. Fordi dette deretter ble delt med andre autonome systemer som kopierte den konfigurasjonen, ble nesten all YouTubes trafikk rutet inn i et svart hull i Pakistan. YouTube i seg selv var helt greit, men misbruk av BGP-ruting drepte effektivt nettstedet midlertidig.

Facebooks rolle å spille

Her er problemet: Facebook driver sitt eget sett med domenenavnservere. Disse er ansvarlige for å fortelle internettleverandøren din og alle mellomleddene i det rute hvor "facebook" (og alle selskapets andre produkter, som Instagram og WhatsApp) faktisk er. Facebook sluttet å kringkaste BGP-rutingsinformasjon til sine egne domenenavnservere, som kringkaster denne informasjonen til autonome systemer over hele verden. Dette betydde at Facebook effektivt hadde koblet seg fra internett. Brian Krebs, en cybersikkerhetsreporter, sa at det så ut til å være en "rutinemessig BGP-oppdatering som gikk galt".

I Facebooks første post mortem sa den følgende:

Våre ingeniørteam har lært at konfigurasjonsendringer på ryggradsruterne som koordinerer nettverkstrafikk mellom datasentrene våre forårsaket problemer som avbrøt denne kommunikasjonen. Denne forstyrrelsen av nettverkstrafikken hadde en gjennomgripende effekt på måten datasentrene våre kommuniserer på, og stoppet tjenestene våre.

Senere er selskapet mer dyptgående sammenbrudd av situasjonen ga mer informasjon.

Under en av disse rutinemessige vedlikeholdsjobbene ble det gitt en kommando med den hensikt å vurdere tilgjengeligheten av global ryggrad kapasitet, som utilsiktet tok ned alle forbindelsene i ryggradsnettverket vårt, og effektivt koblet fra Facebook-datasentre globalt.

Facebook fortsatte deretter med å forklare at når deres DNS-servere ikke kan snakke med datasentrene deres, trekker de tilbake BGP-annonser. Dette er det som avskåret Facebook fra resten av verden, og det som gjorde DNS helt utilgjengelig. Selskapet snakket også om hvordan det var vanskelig for ingeniører å komme på stedet for å fikse problemet, noe som gir mening, ettersom flere rapporter snakket om hvordan Facebook-ansatte hadde problemer med å komme inn i deres kontorer.

Globale konsekvenser

Cloudflares utmerkede oppskrift går i detalj om noen av problemene den la merke til, sammen med noen av konsekvensene som et resultat av at Facebook gikk ned. Cloudflare driver sin egen DNS, 1.1.1.1, og leverandøren så at Facebooks egen nettside sluttet å løse seg. Faktisk bekymret de seg for at det var et problem med systemene deres. Facebook hadde sluttet å kringkaste ruteinformasjon til DNS, noe som betyr at DNS var utilgjengelig.

Da Facebook sluttet å kringkaste ruter, gikk DNS-løsere på lur. Mellom applikasjoner som prøver å stadig koble til Facebook igjen, og menneskelig atferd også resulterer i spam mot Facebooks servere, en "tsunami" av ytterligere DNS-trafikk rammet Cloudflares servere.

Morsomt nok, noen Huawei-enhetseiere bemerket at de heller ikke lenger kunne koble til Wi-Fi-nettverk. Det er mulig at Huawei bruker Facebooks servere på en eller annen måte for å bekrefte om en internettforbindelse er aktiv. Det kan også ha vært en uheldig tilfeldighet.

Det blir likevel verre. Da Facebook gikk ned, bemerket Cloudflare at forespørsler for andre plattformer som Twitter, Signal, Telegram og TikTok gikk opp. Twitter begynte også å slite under belastningen, og i noen få minutter, mente mange at det også skulle gå ned.

Nettsteder som bruker single sign-on med Facebook fikk også problemer, siden mange brukere ikke en gang kunne logge på. Hele internett fikk på mange måter problemer, med tjenester over hele verden som klaget. Flere timer senere kom Facebook tilbake på nett.

Hvis hele denne debakelen beviser én ting, er det som Eva Galperin, direktør for cybersikkerhet ved Electronic Frontier Foundation sier: "Internett holdes sammen med tyggegummi og hyssing".