Почему сбой в работе Facebook лишил многих сотрудников возможности посещать собственные офисы

Из-за сбоя в Facebook многие сотрудники не могли посещать свои офисы, но как это произошло? Мы углубимся и объясним, как это сделать.

Фейсбук, Инстаграм и WhatsApp вчера все упало. Вы, наверное, слышали об этом, учитывая, что не только эти трое массивный службы отключаются от сети на шесть часов, но вместе с этим отключаются и несколько других веб-сайтов. Это также привело к появлению некоторых юмористических новостей из Facebook, в том числе о том, что в результате нескольким сотрудникам Facebook не разрешили посещать свои офисы. Но что именно произошло?

Понимание протокола пограничного шлюза (BGP)

Многое из этого упрощено и сокращено, чтобы объяснить основные понятия о том, что пошло не так в Facebook. Cloudflare имеет фантастическое техническое описание по всей ситуации, если вам нужен полностью углубленный технический анализ с данными из их собственного DNS.

Всякий раз, когда вы посещаете веб-сайт, введенный вами удобочитаемый домен, состоящий из букв и цифр, не отображается. на самом деле

что напрямую связывает вас с веб-сайтом, который вы хотите посетить. Вместо этого они сопоставляются с IP-адресом, который находит для вас сервер доменных имен. Более масштабным и важным является BGP, что означает протокол пограничного шлюза. Этот механизм эффективно действует как обмен, который маршрутизирует информацию между автономными системами через Интернет. По сути, это основа более широкого Интернета, которая связывает все это воедино и позволяет одной сети рекламировать свое существование другим сетям.

Когда мы пользуемся Интернетом, мы взаимодействуем с тысячами интернет-провайдеров, маршрутизаторов и серверов. Каждый веб-сайт, который вы посещаете, каждое соединение, маршрутизируемое в фоновом режиме, — все они вступают в контакт с несколькими системами, которые напрямую не связаны друг с другом. BGP эффективно показывает вашему компьютеру, смартфону или любому другому устройству лучший способ добраться до места назначения. Частью работы BGP также является поиск наилучшего пути от вашего устройства к месту назначения.

BGP, в частности, соединяет автономные системы, и эти автономные системы принадлежат отдельным организациям и имеют собственную сеть. Это может быть интернет-провайдер, крупная компания или даже университет. В прошлом месяце я окончил Дублинский университетский колледж, и у него есть собственная автономная система, выделенная в 1993 году. Информация об этих системах является общедоступной..

Проблема в том, что Интернет — живое, дышащее существо. Эти сети постоянно обновляются, и каждая автономная система использует свои собственные сети друг с другом. все время. Затем эта сеть создается различными автономными системами, которые взаимодействуют друг с другом и создают свою собственную карту Интернета. Как известно, когда правительство Пакистана попыталось запретить YouTube в 2008 году, он использовал BGP для маршрутизации YouTube в черную дыру. Поскольку затем эта информация была передана другим автономным системам, которые скопировали эту конфигурацию, почти весь трафик YouTube был направлен в черную дыру в Пакистане. С самим YouTube все было в порядке, но злоупотребление маршрутизацией BGP фактически временно привело к уничтожению веб-сайта.

Роль Facebook

Вот в чем проблема: Facebook управляет собственным набором серверов доменных имен. Они несут ответственность за информирование вашего интернет-провайдера и всех посредников в этом путь, по которому на самом деле «Facebook» (и все другие продукты компании, такие как Instagram и WhatsApp) является. Facebook прекратил транслировать информацию о маршрутизации BGP на свои собственные серверы доменных имен, которые передают эту информацию автономным системам по всему миру. Это означало, что Facebook фактически отключился от Интернета. Брайан Кребс, репортер по кибербезопасности, сказал, что это, похоже, было «обычное обновление BGP пошло не так».

В первоначальном вскрытии Facebook говорилось следующее:

Наши инженерные группы узнали, что изменения конфигурации магистральных маршрутизаторов, которые координируют сетевой трафик между нашими центрами обработки данных, вызвали проблемы, которые прервали эту связь. Это нарушение сетевого трафика оказало каскадное воздействие на способ связи наших центров обработки данных, что привело к остановке наших услуг.

Позже компания более глубокая разбивка ситуации предоставил дополнительную информацию.

Во время одной из таких плановых работ по техническому обслуживанию была дана команда с намерением оценить доступность глобальной магистральной сети. мощности, которая непреднамеренно оборвала все соединения в нашей магистральной сети, фактически отключив центры обработки данных Facebook. глобально.

Затем Facebook объяснил, что, когда их DNS-серверы не могут связаться с центрами обработки данных, они снимают свою рекламу BGP. Это то, что отрезало Facebook от остального мира и сделало его DNS совершенно недоступным. Компания также рассказала о том, как инженерам было сложно добраться на место, чтобы устранить проблему. это имеет смысл, поскольку во многих отчетах говорилось о том, что у сотрудников Facebook были проблемы даже с входом в свои офисы.

Глобальные последствия

В превосходном описании Cloudflare подробно описаны некоторые обнаруженные проблемы, а также некоторые последствия, возникшие в результате отключения Facebook. Cloudflare использует собственный DNS, 1.1.1.1, и провайдер заметил, что собственный веб-сайт Facebook перестал разрешаться. На самом деле они беспокоились, что это проблема их систем. Facebook прекратил транслировать информацию о маршрутизации в свой DNS, а это означает, что его DNS был недоступен.

Когда Facebook прекратил транслировать маршруты, преобразователи DNS вышли из строя. Между приложениями, пытающимися постоянно переподключаться к Facebook, и поведением человека что привело к спаму на серверах Facebook, «цунами» дополнительного DNS-трафика обрушилось на Cloudflare. серверы.

Как ни странно, некоторые Владельцы устройств Huawei отметили, что они также больше не могут подключаться к сетям Wi-Fi. Вполне возможно, что Huawei тем или иным образом использует серверы Facebook для проверки активности подключения к Интернету. Возможно, это также было неудачное совпадение.

Хотя все равно становится хуже. Когда Facebook вышел из строя, Cloudflare отметила, что количество запросов к другим платформам, таким как Twitter, Signal, Telegram и TikTok, возросло. Твиттер тоже начал испытывать трудности с нагрузкой, и на несколько минут многие думали что оно тоже упадет.

Веб-сайты, использующие единый вход в Facebook, также столкнулись с проблемами, поскольку многие пользователи даже не могли войти в систему. Весь Интернет во многом столкнулся с проблемами, на него жаловались сервисы по всему миру. Через несколько часов Facebook снова появился в сети.

Если весь этот разгром и доказывает что-то, так это Ева Гальперин, директор по кибербезопасности Electronic Frontier Foundation. говорит: «Интернет держится на жвачке и верёвке».