Por que a interrupção do Facebook excluiu muitos funcionários de seus próprios escritórios

A interrupção no Facebook excluiu muitos funcionários de seus próprios escritórios, mas como isso aconteceu? Nós nos aprofundamos e explicamos como.

Facebook, Instagram e WhatsApp tudo caiu ontem. Você provavelmente já ouviu falar sobre isso, visto que não só aqueles três enorme os serviços ficam off-line por seis horas, mas alguns outros sites também foram desativados. Isso também levou a algumas informações humorísticas vindas do Facebook, incluindo o fato de que vários funcionários do Facebook foram excluídos de seus escritórios como resultado. O que exatamente aconteceu?

Compreendendo o Border Gateway Protocol (BGP)

Muito disso é simplificado e reduzido para explicar os conceitos básicos do que deu errado no Facebook. Cloudflare tem um fantástico artigo técnico sobre toda a situação se você deseja uma análise técnica totalmente aprofundada, completa com dados de seu próprio DNS.

Sempre que você visita um site, o domínio legível que você digita, composto de letras e números, não é na verdade

o que conecta você diretamente ao site que deseja visitar. Em vez disso, eles mapeiam para um endereço IP que um servidor de nomes de domínio encontra para você. Maior e mais importante que isso é o BGP, que significa Border Gateway Protocol. Este mecanismo atua efetivamente como uma troca que encaminha informações entre sistemas autônomos pela Internet. É efetivamente a espinha dorsal da Internet mais ampla que une tudo e é a forma como uma rede pode anunciar a sua existência a outras redes.

Quando usamos a Internet, interagimos com milhares de provedores de serviços de Internet, roteadores e servidores. Cada site que você visita, cada conexão roteada em segundo plano, todos eles fazem contato com vários sistemas que não estão diretamente relacionados entre si. O BGP mostra efetivamente ao seu computador ou smartphone ou qualquer outro dispositivo a melhor maneira de chegar ao seu destino. Parte do trabalho do BGP também é encontrar o melhor caminho do seu dispositivo até o seu destino.

O BGP conecta sistemas autônomos em particular, e esses sistemas autônomos pertencem a entidades singulares e possuem rede própria. Podem ser um provedor de serviços de Internet, uma grande empresa ou até mesmo uma universidade. Eu me formei na University College Dublin no mês passado, e ela tem seu próprio sistema autônomo, que foi alocado em 1993. As informações sobre esses sistemas são públicas.

O problema é que a internet é um ser vivo que respira. Essas redes são atualizadas constantemente e cada sistema autônomo compartilha suas próprias redes entre si. o tempo todo. Esta rede é então construída por diferentes sistemas autónomos que falam entre si e criam o seu próprio mapa da Internet. Notoriamente, quando o governo do Paquistão tentou banir o YouTube em 2008, usou o BGP para direcionar o YouTube para um buraco negro. Como isso foi compartilhado com outros sistemas autônomos que copiaram essa configuração, quase todo o tráfego do YouTube foi direcionado para um buraco negro no Paquistão. O próprio YouTube funcionou perfeitamente, mas o abuso do roteamento BGP efetivamente matou o site temporariamente.

O papel do Facebook a desempenhar

Aqui está o problema: o Facebook opera seu próprio conjunto de servidores de nomes de domínio. Estes são responsáveis ​​por informar o seu provedor de serviços de Internet e todos os intermediários nesse rota onde o “facebook” (e todos os outros produtos da empresa, como Instagram e WhatsApp) realmente é. O Facebook parou de transmitir informações de roteamento BGP para seus próprios servidores de nomes de domínio, que transmitem essas informações para sistemas autônomos em todo o mundo. Isso significava que o Facebook havia efetivamente se desconectado da internet. Brian Krebs, um repórter de segurança cibernética, disse que parecia ser uma “atualização de rotina do BGP que deu errado”.

Na autópsia inicial do Facebook, ele disse o seguinte:

Nossas equipes de engenharia aprenderam que alterações na configuração dos roteadores de backbone que coordenam o tráfego de rede entre nossos data centers causaram problemas que interromperam essa comunicação. Esta interrupção no tráfego de rede teve um efeito cascata na forma como os nossos data centers comunicam, paralisando os nossos serviços.

Mais tarde, a empresa mais análise detalhada da situação forneceu mais informações.

Durante um desses trabalhos de manutenção de rotina, foi emitido um comando com a intenção de avaliar a disponibilidade do backbone global capacidade, o que desativou involuntariamente todas as conexões em nossa rede backbone, desconectando efetivamente os data centers do Facebook globalmente.

O Facebook então explicou que quando seus servidores DNS não conseguem se comunicar com seus data centers, eles retiram seus anúncios BGP. Foi isso que isolou o Facebook do resto do mundo e tornou seu DNS completamente inacessível. A empresa também falou sobre como era difícil para os engenheiros chegarem ao local para resolver o problema, o que faz sentido, já que vários relatórios falaram sobre como a equipe do Facebook teve problemas até mesmo para entrar em seus escritórios.

Ramificações globais

O excelente artigo da Cloudflare detalha alguns dos problemas que percebeu, junto com algumas das ramificações como resultado da queda do Facebook. A Cloudflare opera seu próprio DNS, 1.1.1.1, e o provedor viu que o próprio site do Facebook parou de resolver. Na verdade, eles temiam que fosse um problema em seus sistemas. O Facebook parou de transmitir informações de roteamento para seu DNS, o que significa que seu DNS estava indisponível.

Quando o Facebook parou de transmitir rotas, os resolvedores de DNS ficaram descontrolados. Entre os aplicativos que tentam se reconectar constantemente ao Facebook e o comportamento humano também resultando em spam para os servidores do Facebook, um "tsunami" de tráfego DNS adicional atingiu o Cloudflare servidores.

Curiosamente, alguns Proprietários de dispositivos Huawei notaram que eles também não conseguiam mais se conectar a redes Wi-Fi. É possível que a Huawei esteja usando os servidores do Facebook de uma forma ou de outra para verificar se uma conexão com a Internet está ativa. Também pode ter sido uma infeliz coincidência.

Ainda fica pior. Quando o Facebook caiu, a Cloudflare observou que as consultas para outras plataformas como Twitter, Signal, Telegram e TikTok aumentaram. O Twitter também começou a sofrer com a carga e, por alguns minutos, muitos pensaram que iria cair também.

Sites que usam login único com o Facebook também tiveram problemas, pois muitos usuários não conseguiam nem fazer login. Toda a Internet enfrentou problemas de várias maneiras, com reclamações de serviços em todo o mundo. Várias horas depois, o Facebook voltou a ficar online.

Se todo esse desastre prova alguma coisa, é como Eva Galperin, diretora de segurança cibernética da Electronic Frontier Foundation diz: “a internet se mantém unida com chiclete e barbante”.