La caída de Facebook dejó a muchos empleados fuera de sus propias oficinas, pero ¿cómo ocurrió? Profundizamos y explicamos cómo.
Facebook, Instagram y WhatsApp todo se vino abajo ayer. Probablemente hayas oído hablar de ello, dado que no sólo esos tres masivo Los servicios se desconectan durante seis horas, pero algunos otros sitios web también se desconectan. También dio lugar a que salieran algunos fragmentos de información humorística de Facebook, incluido el hecho de que, como resultado, varios empleados de Facebook fueron excluidos de sus oficinas. ¿Pero qué pasó exactamente?
Comprensión del protocolo de puerta de enlace fronteriza (BGP)
Mucho de esto está simplificado y reducido para explicar los conceptos básicos de lo que salió mal en Facebook. Cloudflare tiene un fantástico artículo técnico sobre toda la situación si desea un análisis técnico completamente profundo con datos de su propio DNS.
Cada vez que visita un sitio web, el dominio legible por humanos que escribe compuesto de letras y números no es
de hecho lo que te conecta directamente con el sitio web que deseas visitar. En cambio, se asignan a una dirección IP que un servidor de nombres de dominio encuentra por usted. Más grande e importante que eso es BGP, que significa Border Gateway Protocol. Este mecanismo actúa efectivamente como un intercambio que enruta información entre sistemas autónomos a través de Internet. Es efectivamente la columna vertebral de Internet en general que lo une a todos y es la forma en que una red puede anunciar su existencia a otras redes.Cuando utilizamos Internet, interactuamos con miles de proveedores de servicios de Internet, enrutadores y servidores. Cada sitio web que visitas, cada conexión que se enruta en segundo plano, todos ellos hacen contacto con varios sistemas que no tienen ninguna relación directa entre sí. El BGP muestra efectivamente a su computadora, teléfono inteligente o cualquier otro dispositivo la mejor manera de llegar a su destino. Parte del trabajo de BGP también es encontrar la mejor ruta desde su dispositivo hasta su destino.
El BGP conecta sistemas autónomos en particular, y estos sistemas autónomos son propiedad de entidades singulares y tienen su propia red. Puede ser un proveedor de servicios de Internet, una gran empresa o incluso una universidad. Me gradué de la University College Dublin el mes pasado y tiene su propio sistema autónomo que fue asignado en 1993. La información sobre estos sistemas es pública..
El problema es que Internet es un ser vivo que respira. Estas redes se actualizan constantemente y los sistemas autónomos comparten sus propias redes entre sí. todo el tiempo. Luego, esta red se construye mediante diferentes sistemas autónomos que se comunican entre sí y crean su propio mapa de Internet. Famosamente, cuando el gobierno paquistaní intentó prohibir YouTube en 2008, utilizó BGP para dirigir YouTube a un agujero negro. Debido a que esto luego se compartió con otros sistemas autónomos que copiaron esa configuración, casi todo el tráfico de YouTube fue dirigido a un agujero negro en Pakistán. YouTube en sí estaba completamente bien, pero el abuso del enrutamiento BGP efectivamente acabó con el sitio web temporalmente.
El papel de Facebook a desempeñar
Aquí está el problema: Facebook opera su propio conjunto de servidores de nombres de dominio. Estos son los responsables de informar a su proveedor de servicios de Internet y a todos los intermediarios en ese ruta donde "facebook" (y todos los demás productos de la empresa, como Instagram y WhatsApp) realmente es. Facebook dejó de transmitir información de enrutamiento BGP a sus propios servidores de nombres de dominio, que transmitieron esa información a sistemas autónomos en todo el mundo. Esto significó que Facebook efectivamente se había desconectado de Internet. Brian Krebs, un reportero de ciberseguridad, dijo que parecía ser una "actualización rutinaria de BGP que salió mal".
En la autopsia inicial de Facebook, decía lo siguiente:
Nuestros equipos de ingeniería descubrieron que los cambios de configuración en los enrutadores troncales que coordinan el tráfico de red entre nuestros centros de datos causaron problemas que interrumpieron esta comunicación. Esta interrupción del tráfico de la red tuvo un efecto en cascada en la forma en que se comunican nuestros centros de datos, deteniendo nuestros servicios.
Más tarde, la empresa es más desglose en profundidad de la situación proporcionó más información.
Durante uno de estos trabajos de mantenimiento de rutina, se emitió un comando con la intención de evaluar la disponibilidad de la red troncal global. capacidad, que involuntariamente cortó todas las conexiones en nuestra red troncal, desconectando efectivamente los centros de datos de Facebook globalmente.
Luego, Facebook continuó explicando que cuando sus servidores DNS no pueden comunicarse con sus centros de datos, retiran sus anuncios de BGP. Esto es lo que aisló a Facebook del resto del mundo y lo que hizo que su DNS fuera completamente inalcanzable. La empresa también habló de lo difícil que fue para los ingenieros llegar al lugar para solucionar el problema. lo cual tiene sentido, ya que varios informes hablaban de cómo el personal de Facebook tuvo problemas incluso para ingresar a su oficinas.
Ramificaciones globales
El excelente artículo de Cloudflare detalla algunos de los problemas que notó, junto con algunas de las ramificaciones como resultado de la caída de Facebook. Cloudflare opera su propio DNS, 1.1.1.1, y el proveedor vio que el propio sitio web de Facebook dejó de resolverse. De hecho, les preocupaba que fuera un problema con sus sistemas. Facebook había dejado de transmitir información de enrutamiento a su DNS, lo que significa que su DNS no estaba disponible.
Cuando Facebook dejó de transmitir rutas, los solucionadores de DNS se volvieron locos. Entre las aplicaciones que intentan reconectarse constantemente a Facebook y el comportamiento humano también Como resultado de spam hacia los servidores de Facebook, un "tsunami" de tráfico DNS adicional afectó a Cloudflare. servidores.
Curiosamente, algunos Propietarios de dispositivos Huawei Señaló que tampoco podían conectarse a redes Wi-Fi. Es posible que Huawei esté utilizando los servidores de Facebook de una forma u otra para verificar si hay una conexión a Internet activa. También podría haber sido una desafortunada coincidencia.
Aunque todavía empeora. Cuando Facebook cayó, Cloudflare notó que aumentaron las consultas para otras plataformas como Twitter, Signal, Telegram y TikTok. Twitter también comenzó a luchar bajo la carga y, durante unos breves minutos, muchos pensaron que también bajaría.
Los sitios web que utilizan el inicio de sesión único con Facebook también tuvieron problemas, ya que muchos usuarios ni siquiera podían iniciar sesión. Todo Internet tuvo problemas en muchos sentidos, y los servicios de todo el mundo se quejaron. Varias horas después, Facebook volvió a estar en línea.
Si toda esta debacle prueba una cosa, es como afirma Eva Galperin, directora de ciberseguridad de la Electronic Frontier Foundation. dice: "Internet se mantiene unido con chicle y hilo".