今年の Office 365 反省会会場はこちらです

2019年12月04日 水曜日


【この記事を書いた人】
古賀 勇

IIJ ネットワーク本部アプリケーションサービス部・(兼)社長室所属。 メールサービスの運用業務に従事し、日々世界の悪と戦う一児の父親。社内 Power Automate エバンジェリスト(自称)。M3AAWG member / openSUSE Users / WIDE Project メンバー。趣味は大喜利。はがき職人。

「今年の Office 365 反省会会場はこちらです」のイメージ
IIJ Engineers blog読者プレゼントキャンペーン

Twitterフォロー&条件付きツイートで「バリーくんぬいぐるみ」を抽選で20名にプレゼント!
応募期間は2019/11/29~2019/12/31まで。詳細はこちらをご覧ください。
今すぐツイートするならこちら→ フォローもお忘れなく!

IIJ 2019 TECHアドベントカレンダー 12/4(水)の記事です】

先月、とある日のお昼頃、「今日はなにを食べようかな?」などと考えていたら、サポートセンターから 1本の内線が鳴り響きました。

「お客様から!! メールが届かないと!! 問い合わせが!! 殺到しています!!」

まことか。この焦りっぷりはただごとではない。

サーバの状況を確認したところ、すぐに原因が判明しました。
サービスホストから Office 365 のサーバに接続すると、間髪入れずに TCP RST が返ってくるのです。

Office 365 さんが息をしていない。。。

今回の Office 365 障害

2019年 11月 19日に発生した Office 365 の Exchange Online 障害(※1)は、読者の皆さまも記憶に新しいのではないでしょうか。しかも、日本は平日ビジネスアワー真っ只中でのシステム障害。多くの企業様でメールの送受信ができないなどの影響が出ました。

IIJ では、Office 365 導入ソリューションを提供していますが、近年はフィッシングメールや BEC(ビジネスメール詐欺)に対するセキュリティ強化のため、IIJセキュアMXサービス + Office 365 といった形で組み合わせてご利用になられるお客様が増えています。IIJセキュアMXサービスでメールを受け、6社の商用エンジンでアンチウイルス・迷惑メール判定を行い、綺麗なメールのみをお客様の Office 365 テナントへ配送する仕組みです。

一方で、お客様から送信されたメールの宛先が Office365 であるケースも同様に増えています。

IIJ から見ると、受信方向・送信方向、いずれも Office 365 は「配送先」となるため、Office 365 で障害が発生すると、お客様メールを Office 365 テナントへ配送できない事態が発生します。

冒頭のサポートセンターの問い合わせは、こうした理由によるものでした。

IIJ による障害ではありませんが、当時 Microsoft 社からのレポートがなく、お客様への早急な情報提供が必要と判断し、サポートセンターと連携してお客様へのアナウンスを行いました。

IIJセキュアMXでの観測状況

ここで当時の IIJ → Office 365 へ配送待ちとなっていた、メールの通数のグラフを見てみましょう。

Office 365 の障害で、11:00 頃からモリモリとメールの滞留が増加しているのが分かります。
IIJ から見た、受信方向・送信方向とも同じ傾向です。

縦軸をお見せすることができないのですが、日本の営業時間が終了する 18:00 頃には、ちょっと私たちもドン引きするくらいのメールが滞留し、再配送待ちとなっていました。IIJ では、このようなことも想定して十分なリソースを確保していますので、設備面では問題ないのですが、これだけの通数がお客様に見えていないと思うと、「ここにメールはあるのに…」と大変心苦しい思いでいっぱいです。

モニタリングを続けていたところ、20:30 頃 Office 365 障害の解消とともに徐々に配送され、最長 10時間停止していた再配送待ちのメールが全て配送完了となったのは、同日の 21:30 頃でした。

ところで皆さん。
11月 19日、この日付に何かピンときませんか?

そうです、実は偶然にも昨年 2018年の同日、Office365 では Azure 認証基盤で障害があり、本ブログで取り上げておりました。約 1日間、多要素認証を用いたログインができないといった影響が発生し、この日も日本時間ではビジネスアワーを直撃。約 1日間まったく仕事ができなかった、といった方も少なくなかったようです。(※2)

11月 19日は勤勉で、真面目で、仕事熱心と言われる日本人への定休日なのでしょうか?

クラウドの BCP 対策、できていますか?

クラウドサービスを活用することで、便利で多機能なサービスを低価格で利用できる一方、クラウドサービスの障害に対するリスクヘッジを常に計画しておく必要があります。日本は地震・水害が多いことから、地理的な要因の BCP(事業継続計画)を立てることはあるのですが、クラウドサービスの BCP 対策は忘れがちです。(※3)

メールの場合、メインの事業者とは別のクラウドサービスを契約しておき、有事の際に切り替える方法や、サブドメインで別のメールアドレスを用意しておく、といった方法で、万が一メインで利用しているクラウドサービスが利用できない状態になったとしても、メールの送受信を継続できるように計画しておくことが考えられます。(※4)

ただし、この場合コストは 2倍掛かってしまいますので、クラウドサービスの障害が、自社事業の停止に与える損失とのトレードオフになります。また、この方法の致命的な点は、切り替える前のメールを読むことができないところです。

IIJ が提案するオススメの対策

そこで、IIJセキュアMXサービスでは、このような課題を解決する「スペアメールオプション」を提供しています。

仮に Office 365 で障害が発生しても、いつもと同じメールアドレスでメールの送受信を継続でき、しかも障害発生前の直近のメールを読むことができます。メールボックスの容量は無制限です。

仕組みはとてもシンプルで、お客様宛のメールを Office 365 へ配送する直前で、そのコピーを IIJ のスペアメール設備に保管しておきます。Office 365 や、お客様設備に特別な設定は要りませんし、メールボックスにあるのは迷惑メールフィルタ通過後のキレイなメールのみ。また、設備を 2倍使っているわけではありませんので、1日あたり数円程度の僅かな追加投資で利用可能です。

ところで、IIJセキュアMXサービスも同じくクラウドサービスですので、今回の事象は対岸の火事ではありません。
メールサービスを提供している IIJ としては、お客様メールを受け取れない事態だけは起こらないよう、独自に SLO を定めて運用しており、サービス品質の維持・向上に努めています。ちなみに、過去 1年間のメール受信サーバの可用性は 100% を記録しています!

それくらい我々はメールに本気です。

「今回も Office 365 の障害で責められた…俺のせいじゃないのに…」と思っている IT 部門の管理者様、ぜひご検討ください。
安心してください、ちゃんと(スペアメールに)入ってますよ。

なお、IIJ では他にも Office 365 への付加価値を提供するサービスとして、以下のようなラインナップがございます。よろしければご覧ください。

Office 365 と閉域網で直結したい IIJクラウドエクスチェンジサービス for Microsoft Azure Peering Service
Office 365 と、他クラウドへ SSO(シングルサインオン)したい IIJ IDサービス
Office 365 を使うと Web のセッションが溢れて困っている IIJクラウドプロキシ設定自動化ソリューション for Office 365
Office 365 を安全に利用するための Web セキュリティ対策がしたい IIJセキュアWebゲートウェイサービス
上司から「Office 365 を導入してくれ」と言われたが、良くわからないから丸投げしたい
色々まとめてインテグレーションして欲しい
Office 365導入ソリューション

なお、今回は Exchange Online 障害の翌日に、Teams や OneDrive が使えない障害が連日で発生し(※5)、「Office 363」という結果でした。(※6)

障害は忘れた頃にやってくるものです。皆さんも冬休みの宿題として、クラウドの BCP 対策、一緒に考えてみませんか?

注釈

  1. インシデント管理番号 EX196121 で報告されており、迷惑メールフィルタの更新作業が原因だったとのレポートがありました。日本を含むアジア地域と、オーストラリアでのみで観測されたようです。[↑]
  2. SNS 上では、「仕事ができない! 困った!」という(主に日本国内の)叫びと、「ヒャッホウ! 今日は休みだウェーイ!」という(主に海外圏での)投稿がありました。[↑]
  3. Microsoft 社のプレスリリース「本日より Office 365 を日本データセンターから提供開始」にあるように、Office 365 自体は東西 2つのリージョンで展開されていますが、今回の障害に関しては無力でした。[↑]
  4. このようなリスクヘッジの戦略を、「マルチクラウド」とか、「クロスクラウド」と呼ぶことがあります。[↑]
  5. インシデント管理番号 MO196220 で報告されており、ネットワーク構成を元に戻したことで復旧したとレポートがありました。こちらの障害は世界中で影響が確認されました。[↑]
  6. Office 365 のネガティブキャンペーンみたいになってしまいましたが、私は Office 365 推進派です。今まで Linux 環境で Office ファイルを読み書きするのには LibreOffice を使っていましたが、Office 365 なら Word/Excel/PowerPoint のファイルが Firefox や Chrome といったブラウザ上でちゃんと扱えますし、共同編集もできるので助かっています。ちょっとモッサリしますけどね。[↑]

古賀 勇

2019年12月04日 水曜日

IIJ ネットワーク本部アプリケーションサービス部・(兼)社長室所属。 メールサービスの運用業務に従事し、日々世界の悪と戦う一児の父親。社内 Power Automate エバンジェリスト(自称)。M3AAWG member / openSUSE Users / WIDE Project メンバー。趣味は大喜利。はがき職人。

Related
関連記事