Facebook の障害により、多くの従業員が自分のオフィスから閉め出されましたが、それはどのようにして起こったのでしょうか? 深く掘り下げてその方法を説明します。
Facebook、Instagram、WhatsApp 昨日は全部落ちた. この 3 つだけでなく、 大規模 サービスは 6 時間オフラインになりましたが、他のいくつかの Web サイトもこれに伴ってダウンしました。 また、その結果、複数の Facebook 従業員がオフィスから閉め出されたという事実など、Facebook から出てくるいくつかのユーモラスな情報も生まれました。 いったい何が起こったのでしょうか?
ボーダー ゲートウェイ プロトコル (BGP) について
Facebook で何がうまくいかなかったのかという基本概念を説明するために、その多くが簡略化され、省略されています。 クラウドフレアには 素晴らしい技術的な記事 独自の DNS からのデータを使用した完全に詳細な技術分析が必要な場合は、状況全体を分析します。
Web サイトにアクセスするときに入力する文字と数字で構成される人間が判読可能なドメインは、 実は アクセスしたい Web サイトに直接接続できるもの。 代わりに、ドメイン ネーム サーバーが見つけた IP アドレスにマッピングされます。 それよりも大きくて重要なのは、Border Gateway Protocol の略である BGP です。 このメカニズムは、インターネットを介して自律システム間で情報をルーティングする交換機として効果的に機能します。 これは事実上、より広範なインターネットのバックボーンであり、すべてを結び付けるものであり、あるネットワークがその存在を他のネットワークに宣伝できる方法です。
私たちがインターネットを使用するとき、私たちは何千ものインターネット サービス プロバイダー、ルーター、サーバーと通信します。 あなたが訪問するすべての Web サイト、バックグラウンドでルーティングされるすべての接続は、すべて互いに直接関係のない複数のシステムと通信します。 BGP は、コンピュータ、スマートフォン、またはその他のデバイスに、目的地に到達するための最適な方法を効果的に示します。 BGP の仕事の 1 つは、デバイスから宛先までの最適なパスを見つけることです。
BGP は特に自律システムを接続し、これらの自律システムは単一のエンティティによって所有され、独自のネットワークを持っています。 インターネット サービス プロバイダー、大企業、さらには大学なども含まれます。 私は先月ダブリン大学を卒業しましたが、そこには 1993 年に割り当てられた独自の自律システムがあります。
これらのシステムに関する情報は公開されています.問題は、インターネットは生きており、呼吸している存在であるということです。 これらのネットワークは常に更新され、自律システムはそれぞれ独自のネットワークを相互に共有します。 いつも. このネットワークは、さまざまな自律システムが相互に通信し、独自のインターネット マップを作成することによって構築されます。 有名なことに、 2008年にパキスタン政府がYouTubeを禁止しようとしたとき、BGP を使用して YouTube をブラックホールにルーティングしました。 その後、この設定がその設定をコピーした他の自律システムと共有されたため、YouTube のトラフィックのほぼすべてがパキスタンのブラックホールにルーティングされました。 YouTube 自体は全く問題ありませんでしたが、BGP ルーティングの悪用により Web サイトは事実上一時的に停止されました。
Facebookが果たすべき役割
ここに問題があります。Facebook は独自のドメイン ネーム サーバーのセットを運用しています。 これらは、インターネット サービス プロバイダーとそのすべての仲介者に通知する責任があります。 「Facebook」(および Instagram や WhatsApp などの同社の他の製品すべて)が実際にどこにあるのかをルートします。 は。 Facebook は、BGP ルーティング情報を自社のドメイン ネーム サーバーにブロードキャストし、その情報を世界中の自律システムにブロードキャストすることを停止しました。 これは、Facebook が事実上インターネットから切り離されたことを意味しました。 サイバーセキュリティ記者のブライアン・クレブス氏は、これは「定期的なBGPアップデートが失敗した」ようだと述べた。
Facebookの最初の事後分析では、次のように述べられていた。
当社のエンジニアリング チームは、データ センター間のネットワーク トラフィックを調整するバックボーン ルーターの構成変更により、この通信を中断する問題が発生したことを知りました。 このネットワーク トラフィックの中断は、データセンターの通信方法に連鎖的な影響を及ぼし、サービスが停止しました。
その後、会社はさらに 詳しい内訳 状況からさらに詳しい情報が得られました。
これらの定期メンテナンス ジョブの 1 つで、グローバル バックボーンの可用性を評価する目的でコマンドが発行されました。 容量が減少し、バックボーン ネットワーク内のすべての接続が意図せずダウンしてしまい、事実上 Facebook データ センターが切断されました。 世界的に。
Facebookは続けて、DNSサーバーがデータセンターと通信できない場合にはBGP広告を取り下げると説明した。 これが Facebook を世界から切り離し、DNS が完全にアクセス不能になった原因です。 同社はまた、問題を解決するためにエンジニアが現場に行くのがいかに困難だったかについても話しました。 Facebook スタッフが自分のアカウントを入力することさえ困難だったことについて複数のレポートが報じているので、これは当然のことです。 オフィス。
世界的な影響
Cloudflare の優れた記事では、Facebook のダウンによる影響の一部とともに、同社が気づいた問題のいくつかについて詳しく説明されています。 Cloudflare は独自の DNS 1.1.1.1 を運用しており、プロバイダーは Facebook 自身の Web サイトが解決しなくなったことに気付きました。 実際、彼らはそれがシステムに問題があるのではないかと心配していました。 Facebook は DNS へのルーティング情報のブロードキャストを停止していました。これは、DNS が利用できなくなったことを意味します。
Facebook がルートのブロードキャストを停止したとき、DNS リゾルバーが混乱しました。 Facebook への再接続を常に試みるアプリケーションと人間の行動の間でも その結果、Facebook のサーバーにスパムが送信され、追加の DNS トラフィックの「津波」が Cloudflare を襲いました。 サーバー。
面白いことに、一部の人は、 Huawei デバイスの所有者 Wi-Fi ネットワークにも接続できなくなったことがわかりました。 ファーウェイがインターネット接続がアクティブかどうかを確認するために何らかの方法でFacebookのサーバーを使用している可能性がある。 それは不幸な偶然でもあったのかもしれない。
それでもさらに悪化します。 Facebookがダウンしたとき、Cloudflareは、Twitter、Signal、Telegram、TikTokなどの他のプラットフォームに対するクエリが増加したことに注目しました。 Twitter も負荷の下で苦戦し始め、ほんの数分間、 多くの人が考えた それも下がるだろうと。
Facebook によるシングル サインオンを使用する Web サイトでも、多くのユーザーがログインさえできないという問題が発生しました。 インターネット全体がさまざまな方法で問題に遭遇し、世界中のサービスから苦情が寄せられました。 数時間後、Facebook はオンラインに戻りました。
この大失敗全体が一つのことを証明するとしたら、それは電子フロンティア財団のサイバーセキュリティ担当ディレクター、エヴァ・ガルペリン氏の言葉だ。 言う: 「インターネットは風船ガムと糸で結ばれている」。