2021年10月5日、インスタグラムやフェイスブック、ワッツアップなど、フェイスブックのあらゆるサービスがダウンし、世間を騒がせた。読者のなかには、サービスを利用できなくて、困った人も多いのではないだろうか。なぜ、サービスに障害が起こったのか。
今回は、フェイスブックのエンジニアリングやインフラの担当バイスプレジデントであるSantosh Janardhan氏が分かりやすく解説した内容について紹介しよう。
データセンターをつなぐ、重要なネットワークがダウン

同氏の発表によると、今回の障害は基幹回線の容量を管理する「バックボーン」に起因しているとのこと。ユーザーがフェイスブックのアプリでやりとりするデータは、すべてこのバックボーンネットワークを介してフェイスブックのデータセンターで処理される。しかしそんなバックボーンに障害が起きたことで、ユーザーがアクセスできない事態が発生したようだ。
この障害の直接的な原因は、バックボーンネットワークのメンテナンス中に発生したものだという。メンテナンス作業をしていたフェイスブックの技術者が、グローバルなバックボーンネットワークの容量の可用性をチェックするためのコマンドを発信。この時、バックボーンネットワークのあらゆる接続が停止してしまい、フェイスブックにおける全世界のデータセンター網が切断されてしまったとのこと。フェイスブックではこうした事態を防ぐために、ネットワーク全体に影響が出るようなコマンドを監視するツールを使っているのだが、このツールがバグで機能しなかったため、コマンドをストップさせることはできなかったようだ。

今回の障害では、前述したデータセンターにアクセスできないという問題の他に、データセンターとユーザーをつなぐ小規模な施設への影響も確認されている。この施設では、DNSクエリへの応答を行う役割を担っている。DNSとは、ユーザーがブラウザに入力するアドレスを特定のサーバーのIPアドレスに変換するため、インターネットのアドレス帳と呼ばれているもの。フェイスブックでは、この変換したIPアドレス情報をボーダー・ゲートウェイ・プロトコル(BGP)という通信規格を介して他の地域のインターネットに受け渡している。そのため、DNSサーバーがデータセンターと通信できなくなった。
DNSサー…