Awaria Facebooka spowodowała, że wielu pracowników nie mogło korzystać z własnych biur. Jak to się stało? Nurkujemy głęboko i wyjaśniamy, jak to zrobić.
Facebooka, Instagrama i WhatsAppa wszystko wczoraj padło. Prawdopodobnie o tym słyszałeś, biorąc pod uwagę, że nie tylko ta trójka masywny usługi zostają wyłączone na sześć godzin, ale kilka innych stron internetowych również zostało z tym wyłączonych. Doprowadziło to również do pojawienia się kilku zabawnych ciekawostek na Facebooku, w tym faktu, że w rezultacie wielu pracowników Facebooka zostało odciętych od swoich biur. Co jednak dokładnie się wydarzyło?
Zrozumienie protokołu Border Gateway (BGP)
Wiele z nich zostało uproszczonych i okrojonych, aby wyjaśnić podstawowe pojęcia dotyczące tego, co poszło nie tak na Facebooku. Cloudflare ma fantastyczny opis techniczny na całą sytuację, jeśli chcesz uzyskać całkowicie dogłębną analizę techniczną wraz z danymi z własnego DNS.
Za każdym razem, gdy odwiedzasz witrynę internetową, wpisana przez Ciebie czytelna dla człowieka domena składająca się z liter i cyfr nie jest taka
Właściwie co bezpośrednio łączy Cię ze stroną internetową, którą chcesz odwiedzić. Zamiast tego mapują na adres IP znaleziony dla Ciebie przez serwer nazw domen. Większy i ważniejszy jest BGP, czyli protokół Border Gateway Protocol. Mechanizm ten skutecznie działa jako wymiana, która kieruje informacje między systemami autonomicznymi przez Internet. W rzeczywistości jest to szkielet szerszego Internetu, który łączy go w całość i dzięki któremu jedna sieć może reklamować swoje istnienie innym sieciom.Kiedy korzystamy z Internetu, wchodzimy w interakcję z tysiącami dostawców usług internetowych, routerów i serwerów. Każda odwiedzana witryna internetowa, każde połączenie kierowane w tle – wszystko to nawiązuje kontakt z kilkoma systemami, które nie są ze sobą bezpośrednio powiązane. BGP skutecznie wskazuje Twojemu komputerowi, smartfonowi lub innemu urządzeniu najlepszą drogę dotarcia do celu. Częścią zadania BGP jest także znalezienie najlepszej ścieżki z Twojego urządzenia do miejsca docelowego.
BGP łączy w szczególności systemy autonomiczne, które są własnością pojedynczych podmiotów i posiadają własną sieć. Może to być dostawca usług internetowych, duża firma, a nawet uniwersytet. W zeszłym miesiącu ukończyłem University College Dublin, który ma swój własny, autonomiczny system, który został przydzielony w 1993 roku. Informacje o tych systemach są publiczne.
Problem w tym, że Internet jest żywą, oddychającą istotą. Sieci te są stale aktualizowane, a systemy autonomiczne dzielą się między sobą własnymi sieciami cały czas. Sieć ta jest następnie budowana przez różne autonomiczne systemy komunikujące się ze sobą i tworzące własną mapę Internetu. Znakomicie, kiedy rząd Pakistanu próbował zakazać YouTube w 2008 roku, użył protokołu BGP do skierowania YouTube w czarną dziurę. Ponieważ plik ten został następnie udostępniony innym autonomicznym systemom, które skopiowały tę konfigurację, prawie cały ruch YouTube został skierowany do czarnej dziury w Pakistanie. Sam YouTube działał całkowicie w porządku, ale nadużycie routingu BGP skutecznie tymczasowo zawiesiło witrynę.
Rola Facebooka do odegrania
Oto problem: Facebook obsługuje własny zestaw serwerów nazw domen. Są oni odpowiedzialni za poinformowanie o tym Twojego dostawcy usług internetowych i wszystkich pośredników trasa, w której faktycznie znajduje się „Facebook” (i wszystkie inne produkty firmy, takie jak Instagram i WhatsApp). Jest. Facebook zaprzestał przesyłania informacji o routingu BGP do własnych serwerów nazw domen, które udostępniają te informacje systemom autonomicznym na całym świecie. Oznaczało to, że Facebook skutecznie odłączył się od Internetu. Brian Krebs, reporter ds. cyberbezpieczeństwa, powiedział, że wyglądało to na „nieudaną rutynową aktualizację BGP”.
We wstępnej sekcji zwłok Facebooka napisano, co następuje:
Nasze zespoły inżynieryjne dowiedziały się, że zmiany konfiguracji routerów szkieletowych koordynujących ruch sieciowy między naszymi centrami danych spowodowały problemy, które przerwały tę komunikację. Zakłócenia w ruchu sieciowym miały kaskadowy wpływ na sposób komunikowania się naszych centrów danych, powodując zatrzymanie świadczenia naszych usług.
Później firma jest czymś więcej dogłębny podział sytuacji dostarczyło więcej informacji.
Podczas jednego z takich rutynowych prac konserwacyjnych wydano polecenie mające na celu ocenę dostępności globalnego szkieletu przepustowość, która w niezamierzony sposób wyłączyła wszystkie połączenia w naszej sieci szkieletowej, skutecznie rozłączając centra danych Facebooka globalnie.
Następnie Facebook wyjaśnił, że gdy ich serwery DNS nie mogą komunikować się z centrami danych, wycofują swoje reklamy BGP. To właśnie odcięło Facebooka od reszty świata i sprawiło, że jego DNS był całkowicie nieosiągalny. Firma wspomniała również o trudnościach inżynierów w dotarciu na miejsce w celu rozwiązania problemu, co ma sens, ponieważ wiele raportów mówiło o tym, jak pracownicy Facebooka mieli problemy nawet z wejściem na swoje biura.
Globalne konsekwencje
Doskonały artykuł Cloudflare szczegółowo opisuje niektóre problemy, które zauważył, a także niektóre konsekwencje awarii Facebooka. Cloudflare obsługuje własny DNS w wersji 1.1.1.1, a dostawca zauważył, że witryna Facebooka przestała się rozwiązywać. W rzeczywistości martwili się, że jest to problem z ich systemami. Facebook przestał wysyłać informacje o routingu do swojego DNS, co oznaczało, że jego DNS był niedostępny.
Kiedy Facebook przestał nadawać trasy, programy do rozpoznawania nazw DNS zawiodły. Pomiędzy aplikacjami próbującymi stale ponownie łączyć się z Facebookiem, a także ludzkimi zachowaniami powodując spam kierowany do serwerów Facebooka, „tsunami” dodatkowego ruchu DNS uderzyło w Cloudflare serwery.
Co zabawne, niektórzy Właściciele urządzeń Huawei zauważyło, że nie mogą już łączyć się z sieciami Wi-Fi. Możliwe, że Huawei w taki czy inny sposób korzysta z serwerów Facebooka, aby sprawdzić, czy połączenie internetowe jest aktywne. Mógł to być także nieszczęśliwy zbieg okoliczności.
Jednak nadal jest coraz gorzej. Kiedy Facebook przestał działać, Cloudflare zauważył, że wzrosła liczba zapytań do innych platform, takich jak Twitter, Signal, Telegram i TikTok. Twitter również zaczął zmagać się z obciążeniem i przez kilka minut wielu myślało żeby to też spadło.
Witryny korzystające z jednokrotnego logowania za pomocą Facebooka również napotykały problemy, ponieważ wielu użytkowników nie mogło się nawet zalogować. Cały Internet pod wieloma względami napotkał problemy, a usługi na całym świecie narzekały. Kilka godzin później Facebook wrócił do trybu online.
Jeśli cała ta porażka dowodzi jednego, to właśnie tego twierdzi Eva Galperin, dyrektor ds. cyberbezpieczeństwa w Electronic Frontier Foundation mówi: „Internet trzyma się gumy balonowej i sznurka”.