特別座談会「災害とインターネット」(IIJ Technical DAY 2018より)
2019年01月22日 火曜日
CONTENTS
昨年11月22日、エンジニア向け技術イベント「IIJ Technical DAY 2018」を開催しました。
その中で行われた特別座談会「災害とインターネット」はSNSなどを通じて社内外から大きな反響がありました。そこで当ブログでは、座談会の一部始終を最大限書き起こしました。くだけた話し方から方言まで、そこで語られた生の声をお届けします。
2018年に日本各地で発生した災害に際し、IIJでは本社と各地の支社支店において、災害対策本部の立ち上げやネットワークの復旧対応など、様々な活動を行っていました。この座談会ではIIJ内の様々な立場のスタッフが集まり、それぞれの現場でどのようなことが起こっていたのか、また、災害に強いネットワーク作りとはどのようなものなのか。主に昨年9月に発生した「北海道胆振東部地震」を取り上げて話していきます。
【話者】(向かって左から)
- 東日本事業部 札幌支店 技術課長 太田 良二(以降、ryoji-o)
- サービス統括本部 サービス運用企画部長 藤井 直人(以降、fujii)
- サービス基盤本部 副本部長 小林 努(以降、tsutomu)
【司会進行】
- 広報部 副部長 技術広報担当 堂前 清隆(以降、doumae)
※このメンバー間ではアカウント名で呼び合うことがあるため、対談中もそのような表現があります。そのためこのような表記とさせていただきます
オープニング
(doumae)思い返してみると2018年は、大変災害が多かったです。毎年災害は起きていますが、とくに2018年は多かったという印象があります。
こちらは内閣府の「防災情報 災害救助法の適用」となった大規模なものだけなのですが、下の方から順番に見ていくと2月の大雪、地震、豪雪、大雨、地震とですね。こう、西から東まで、大変色々な災害があったという感じがしております。
われわれIIJは光ファイバーを持っておりませんので、厳密にインフラ企業かどうかというと議論が分かれるところですが、皆様が使っているスマートフォンやインターネットはやっておりますので、そういう観点から災害とどう向き合ってきたのか、その辺を話し合ってみたいなと思います。IIJのなかでも、インフラ、サポート、お客様対応などをしているメンバーを集めてみました。
北海道胆振東部地震の札幌
(doumae)太田さんは、今は札幌ですが、結構色々異動されているんですよね。
(ryoji-o)本社で4年働き、関西支社で10年弱、その後震災後ですけれど東北支店に行って4年ぐらい、そして札幌支店で2年半です。
(doumae)ryoji-o…あ、すいません。このメンツなんですけれどお互いのことをアカウント名で呼び合うことがありまして、ryoji-oと言ったら太田さんです。tsutomuと言ったら小林のこと、藤井さんはアカウントがfujiiなのでそのままです。そういう言い方が出るかもしれませんが、まあそういうものだと思ってご容赦ください。(会場、笑)
(doumae)で、ryoji-oさんには今日札幌から来てもらったんですが、今年の災害で特徴的だったのは北海道胆振地方の地震があったという話なんですけれど、ryoji-oはちょうどこの地域にいたということで、振り返ってもらおうと思います。
(ryoji-o)地震が起きたのが深夜の3時過ぎ、3時8分ごろですね。当然寝てたんですけれど起きまして、揺れが大きかったので会社から安否確認というのが飛んできたので答えて、特に壊れたり倒れたりしたものもなかったので寝ようとしたら「札幌で電気が止まった」と。やばいかなーと思ったんですが、そのうち解消するだろうと、もう一度寝ました。起きたらエレベーターがまず動かない。やばい。10Fから1Fまで階段で降りました。
外に出ると信号がとまっています。当然、全部の信号が。そこでちょっと、本格的にやばいなーと思いながら徒歩5分のオフィスまで行きました。そしたらオフィスが停電しています。当然サーバから、マシンから、全部の電源が落ちています。復電したときの火災に気をつけようということで、ブレーカーをまずは全部落として、そこから徒歩10分ぐらいで行けるデータセンターに行きました。データセンターにはお客様からお預かりしているサーバなどがありますので、それを確認しに行ったところ非常用電源で無事に動いていた。データセンターに残り続けて本社と対策本部を立てました。お客様から問い合わせが来ているかもしれないのでメールの確認や電話対応などもはじめました。
(doumae)オフィスが停電状態なので、データセンターに篭城してたってことですよね。写真ももらってるんですけれども。
(ryoji-o)これが実際に客先でオペレーションしたときの状況です。客先も電気は止まっているんですけれど、サーバだけはUPSで動いていたので。まあ見てのとおり、歩いているとサーバやラックにぶつかったりもするんですけれど。ヘルメットにヘッドライトをつけて、オペレーションや現地作業を数名でやりました。
(doumae)停電時刻5時58分というのは、あくまで朝日新聞の「報道時刻」ですよね。実際には地震のほぼ直後に停電になったと。
(ryoji-o)たぶん地域によって誤差はあるんですけれど、私の家とオフィスは札幌市内にあって、ここでは3時15分には徐々に電気が止まっていった。札幌のテレビ塔の真ん中に時計があるんですけれど、それが消えたってことがSNSで盛り上がっていました。
(doumae)象徴的ですね。本社の方から安否確認はあったといいますが、電話とか、みなさんそのときはどんな感じだったんですか?
(ryoji-o)電話は地震当初はつながったんですけれど、部分的にdocomoさんの局舎とか、KDDIさんの局舎とかがどんどん落ちていくので、電波が弱くなっていくんですね。自分の部屋もそうなんですけど、外ではつながっていたのが、中に入ると「圏外」になるんですよ。外に出るとまたつながる。だからやっぱりいつもと全然違う環境で。
(doumae)連絡するたびに外に出るんですね。
(ryoji-o)幸いにもデータセンターの中ではアンテナが何本か立って(笑)充電しながらデータセンターで過ごしました。
(doumae)北海道にはIIJ以外にもデータセンターを持っている企業はいくつかありますが、どこも小さなトラブルはありつつも、おおむね非常用の発電機で生きていたということだそうです。IIJも、基本的に電源はノートラブルでいけましたね。
その一方で、本社との連携という話もありました。IIJでは大きな災害があると「災害対策本部」が立ち上がるのですが、fujiiが今回の対策本部では色々立ち回りをしていましたので、そのときの話を聞こうと思います。
そのころ、東京では
(fujii)われわれ、今回は気がついたのが早くて、地震の直後に偶然、災害対策本部のメンバーじゃないんですけれど「危機管理室」という障害や災害だけではなく全社のリスク・コントロールをする部署がありまして、そこのメンバーの旦那さんが偶然、深夜のスポーツ中継を見ていて、テロップで地震に気がつき、奥さんを起こして「君の仕事ちゃうの?」って(会場笑)。
で、それがまさにどんぴしゃで。まずは彼女が経営陣に連絡。つづいて彼女は社員の生活安全系を普段は見ているのですが、技術部門のわれわれ災害対策本部とも密接に連携をとっているので、本部長である私をたたき起こした。彼女の電話が3時30分ぐらいですね。そこからIIJの技術系メンバーがあつまるIRCに入ってみてみたら、もうすでにバックボーン・オペレーターの人間は反応していて待機してくれていて「札幌DCを含むバックボーンは異常ありません、設備系のアラートも特にあがっていません、ただIIJのIP接続のお客様側の断が複数出ています」つまりお客さまのローカル側に障害が起きているという情報がその時点でわかっていた。すかさずその情報を経営陣のメーリングリストに僕が報告して。
つづいてやったのが、われわれ「大規模対策本部」というバーチャル組織をIIJのサポート系部署のコアメンバーで作っていて、これは災害以外のときのIIJサービスの大規模な障害も対応します。たとえばお客さまの数がちょっと多めの騒ぎが大きくなりそうな災害だとか、クローズまでに時間がかかっている障害の情報を収集して原因を調べるとともに営業やサポートにこれまでの情報を展開し、お客様へのアナウンスをサポートするために有機的に動くとか、そういうときのヘッドクオーターとなります。大規模対策本部の立ち上げは日ごろから訓練をしていて、そのメンバーはMicrosoft Teamsを使っていて、そのチームのチャンネルである@generalに情報を出すととりあえず全員のスマホが鳴る体制ができています。そこに私が「はい、北海道で地震が起きています。オンラインになれる人はオンラインになって」と指示を出し、さらにサブリーダーである錦さん(nishiki)を起こして2人で分担体制をとります。まずはDCチームのリーダーをたたき起こして、データセンター側の確認をさせつつ、もう一人はサポートセンターに入電が殺到するよ、ということでサポートセンターの電話を取るオペレーターのラインを増やす。これがだいたい4時から5時ぐらいですね。このぐらいでデータセンターがもう、非常用発電装置に切り替わっているという情報が来ました。データセンターの入電はまだみんな気づいていないというか、札幌の人たちは停電しているから何もできない状況で。
夜が明けると、IIJでたまたまその日は取締役会があって、取締役会に情報を上げるために技術系の役員に、データセンターの非常用発電装置の燃料がどこまで持つのかという見込み、そして万が一札幌データセンターの電源が完全に途絶えてしまった時の顧客への影響、つまりデータセンターに入っている自治体、メディア、ケーブルテレビ、ISP、金融機関と、
(doumae)あとは公共機関
(fujii)そうですね、そういった影響を与えちゃいけないような人たちをリストアップして、その2つを取締役会に報告しつつ、っていうのが朝(7時)ぐらいかな
(doumae)ちなみにその話は、家からしてたんですか?
(fujii)家で一人が情報を集めながらTeamsで発信して、サブ担当(nishiki)がタクシーにのって会社に直行して会社で本部を立ち上げる、立ち上がったら僕が交代で移動するという交代制ですね。
(doumae)ラインをとめない。
(fujii)そうですそうです。
(doumae)なるほど。そしてnishikiさんとfujiiさんが相次いで到着して、対策本部がどーんと。
(fujii)そのへんでそろそろ、お客様が仕事に入る9時よりも前に、アナウンスを一報打っておかないと入電でセンターがパンクするので、先行して「IIJのデータセンターは非常用発電で動いているので大丈夫です。」とアナウンスをしました。その時点でお客様には言いませんでしたが、燃料は2日間ぐらい、通常札幌データセンターはスペック上では24時間とうたっているのですが、そのとき9月でそんなに暑くなかったので、平均の燃費、つまりサーバを冷やすクーラーの燃費は結構よかったので、計算すると、このままの状況ならばうまくいけば2日は持ちそうだというめどが立ったので、ただお客様には2日とはいわず「十分余裕を持った燃料の確保はできています。」と、この2つを入れたアナウンスを8時17分にうちました。
(doumae)そのあたりで、ほかのメンバーも動き出してきて、通常体制になりますよね。もうひとつ、設備の話も見ておきたいのですが、IIJはこんなかたちで、日本全国とワールドワイドに拠点があって、当然札幌にもあってここ(画面上でポインタ動かす)なのですが、このとき設備はどんな状態だったんでしょうか?
大変だったのは、停電
(tsutomu)そうですね、さっき見てもらったとおりIIJは札幌のデータセンターのなかに、お客様設備とあわせて、バックボーン拠点としてもここを使っています。フレッツなどもここに収納されているので、ここはデータセンターだけではなくて、インターネット接続を提供している拠点としての役割を持っています。停電が起きて、ドンといったんで、せっかくなのでわかりやすいものがあった方がいいだろうとこういうのを持ってきたのですが、
こういうのは残しておくと10年後にいい資料になったりするので残しておくんですけれど、これが何かというと、トラフィック量と札幌のフレッツのセッション数の遷移のグラフです。青い線グラフがトラフィック、赤い線グラフは札幌のIIJのお客様のフレッツのセッション数の推移です。なのでこう、地震がちょうど発生してブラックアウトしたタイミングでグラフがどーんと落ちていて、トラフィックはほとんどゼロになるんですけれども、セッションはちょっとだけ生きているんですね。これは法人のお客様のブロードバンドで生きている、報道でご存知だと思うんですけれども、フレッツとかNTTの光回線はこの時間少しだけ生きていて、それは法人とかマニアックな個人が家からUPSで(会場、笑)たまにうちの社員とかでいるんですけれどもね。そういう人たちがいるんだろうなと。それから北海道電力のブラックアウトがはじまるまでの状態までがずっと、ちょいちょいとなってて、朝になると会社のUPSでつなぎはじめるお客様が少しずつ現れるのですが、電力復旧まではいっておらず、ようやく昼過ぎぐらいに電力復旧が徐々にはじまるぞとなってセッション数がじわっと伸びていくんですね。たぶん家庭のブロードバンドユーザーは電気つけっぱなしで、電気が回復したらそのままセッションも回復していくという状態なのでトラフィックはのびていくんですけれど、ここで面白いのが夜になると皆さん寝るので夜になるといったん落ちるんですよね。でもトラフィックは落ちてもセッション数は伸びていく。これは電力が回復していってて、家の電気はついていないけれど電力は回復していて、フレッツのセッションだけがどーっと伸びていっているというのがよくわかります。で、一時回復した電力も発電所のコントロールなどがありながら、翌日の夕方に電力の回復がどーんと進んで、ほぼほぼ0時あたりになるところで、われわれから見ると90パーセントぐらい元に戻った。そのときもトラフィックはみなさん寝るので下がるんですけれど、セッションは維持できていて回復しているのがわかります。
ちなみにこのグラフのセッションの回復と電力の回復状況は良く似ていてほぼほぼ一致するんですけれど、電力広域的運営推進機関というところが今回のブラックアウトの検証をするためにいろんな資料を出していて、10月ぐらいに中間報告をしてすごく細かい、どういうタイミングで電力がなくなって、どういう経緯で完全復帰していったかというグラフを書いているんですけれども、ほぼそれと一致するんですね。見ていて「ああこれはおもしろいな」と。このグラフを今回、皆さんにお見せしたかったというところです。
(doumae)これはフレッツという、お客様のところにつながっているネットワークですよね。バックボーンに関しては、札幌と東京をつなぐところ含めて健全だったと。こっちのトラフィックはそんなに減った感じはしなかったのでしょうか。
(tsutomu)さっき、fujiiから出ていたとおり、法人のお客様がつながっていて、どちらにしても法人のお客様はUPSで生きていたりとか、同じようにUPSでつながっているお客様はトラフィックが出ているんですよね。普段だと東京から北海道のサイトを見に行かなくても、公的な機関とかの情報を東京から見に行くことが割と多く発生して、普段だったら北海道の中の通信なのが、東京を経由してやりとりすることも増えているのがバックボーンのトラフィックでは見えました。
(doumae)そんな感じだったんですね。われわれから見るとインフラなんですけれども、一番大きいのはお客様ですよね、やっぱり。ryoji-oさんもfujiiさんもそうですけれど、お客様から問い合わせが来て、それに答えるとか、直しにいったりとかありますが、お問い合わせってどんな感じできましたか?
(fujii)サポートセンターは待ち構えていたんですけれど、まず札幌の、北海道のお客さんからの電話は「ない」んですよ。もちろん、生きていくことで精一杯だったり、現場の状況をよくわかっているからわれわれに問い合わせるまでもない。
で、多かったのが「札幌にWANの拠点がある、東京本社の情シスの人」が、北海道のWANの疎通のpingがなくなったよ、ってアラート通知が飛ぶんですね。で、それを見て、北海道って今、どうなってるの?ってうちのセンターに来るんですが「いやいやいや、停電してるってテレビで言うてるやん!それ以上なにがわかるのん?」ってわけですが、通知を見た人は一縷の望みをかけて電話してくるのですが「うちもわからんなあ」。と同時に、これ9月6日だったので、先週先々週に西日本で台風があって、まずNTT西日本さんの回線問い合わせ窓口はパンク状態。なので、われわれに言われて調査しようにも回らず、そして今度はこういうことになったので東も西も回線調査なんて回らない状態だったんですよ。そこに「現地の状況は」といわれても、まあまあまあ・・・大変でしたね。
(doumae)ご覧のとおり、としか言えなかったですね。ryoji-oさん、現地はそのときどうでしたか?夜があけて。
(ryoji-o)当日の朝は、電気がまだ復電していないので、お客様も当然電話したいけれどできない。メールもしたいけれどできない。一番問い合わせが多かったのが、復旧した金曜日の朝、電話がつながったからすぐ。僕は金曜日の朝、9時に出社したんですけど、出社したとたんに、ブレーカーの電源をONにしたとたんに電話が鳴り出して(笑)お客様は待ち構えていたんだろうなと。ただ、話を聞くとお客様も非常用電源を入れて動かしていたんですけれど、2日止まっちゃうともたないと。なんで「サーバの落とし方を教えてくれ」とか。で、一応IIJが入れたものに関しては落とし方、あげ方、切り替え方法を教えるんですが、最近のサーバはUPSが動作して切り替わってしまうので、非常時の訓練をしてなかったんですよ。なので、最近ではその訓練を提案するという。立ち上げるときはこういう順番でこう立ち上げましょう。など。
(doumae)確かに最近はUPSが2~3時間バックアップできるので、一瞬の停電だったら気にならないんですよね。でも結局今回はUPSでは間に合わなくて、落ちたお客さんもいらっしゃるんですよね。
(ryoji-o)当然いましたし、突然落ちてしまうとサーバがあがってこない、ディスクが壊れたというのも何件かあったり、あとはネットワーク機械が途中で起動がとまっちゃって、何かうまく通信できませーんとなって、現地に行って何回かリブートしたら戻る。戻らないものについては、現地でさっきの図みたくヘッドライトをつけてコンフィグを入れてあげる。そういう対応を何件か。
(doumae)それは、セーブ トゥ フラッシュ (safe to flash)してなかった的な。不揮発性のところに保存していたつもりが、ポーンといってしまったので、あがってきたら真っ白だったり、昔のコンフィグだったり。
(ryoji-o)うーん、コンフィグだったりとか、あとは途中で止まっちゃってるとか、
(doumae)正しい順番でシャットダウンできなかったからみたいなのが結構ありますよね
(fujii)ちなみに今回面白かったのが、重油の奪い合いがおきたよね。データセンターは重油の優先契約を当然結んでいるんですが、こういうときって、なんと国交省が乗り出してくるとは思わなかったよね。総務省か経産省かどっちかだろうと思っていたら、今回は仕切り役が国交省で、当然われわれのリストは最優先にのっているんだけれども「それ以上に人の命を優先するから」って言われて、通信よりも病院かーって、そこらへんの采配をふるっていたのはどうやら国交省だったみたいです。
(doumae)なるほど。まあ病院もね、非常用発電機がないと動きませんもんね。じゃあちょっと、過去の災害との比較ってわけではないですが、札幌の災害は地震というよりも停電だったんですかね。
(ryoji-o)そうですね、災害で物が壊れたとか流されたとかではなく、単に電源がないだけなんで、電気さえくれば全部元に戻る状態だった。なのでわれわれが「機械を無償で貸しますよ」とかっていうレベルのものではなく「本当に北海道電力さん、がんばってくれ」でしかなかった。
(doumae)札幌だけではなくほかのところの災害でも、われわれも自治体さんのお手伝いをすることがあるのですが「流されちゃった」とか、「燃えちゃった」というときは臨時で機械を貸したり、最大限融通させたりします。今回はそういうパターンじゃなかったのが特徴的ですね。
(ryoji-o)われわれも準備はしていたんですけれど、ものを持っていったところで電気がないと用意してもだめなので、であれば復旧したあとのお手伝いをということで、サポートの準備をしていました。1週間ぐらい。
(doumae)今、1週間ぐらいとありましたが、当然今でも地震という災害のインパクトは大きくて、物理的なものなどまだ復旧の途上というかたはいらっしゃるでしょうけれど、通信サイドの視点として、ある程度状況が落ち着いて「平常」となったのはいつぐらいの印象ですか?東京サイドと札幌サイドとそれぞれ意見がほしいんですけれども。
(ryoji-o)現地は、電気が復旧したのがだいたい翌日の朝ですね。地域によっては非常用で動いているところもありましたが、キャリアの局舎の非常用はそこまで長く持たないので、また落ちちゃうんですね。それも含めて正常に戻ったのがだいたい翌週の火曜日とか水曜日とかなので、だいたい1週間ぐらいですね。
(tsutomu)IIJのオフィスは札幌駅の目の前、交差点をはさんだぐらいのところにあるんですよね。オフィスの電源が復旧したのが翌日の朝から昼、でもデータセンターの方は駅の逆側にあって、そちらは地震の当日の14時ぐらいに復旧しているんですよ。札幌駅をはさんでともに2分ぐらいのところにあるんですけれども、IIJのデータセンター側は当日の14時、オフィスは翌日の9時というぐらい差があるんですよね。札幌の中心街だったから早かったんじゃないの?という意見はあるのですが、同じ中心部でもそんなに差があったんだなというのが実情ですね。
(ryoji-o)自宅はデータセンターから徒歩3分、オフィスから徒歩5分で、復旧したのが土曜の夜でしたね。
(doumae)全然違いますね。だいぶまだらというか、アレな状態だったんですね。北海道のなかに色々な拠点を持っているお客様だと、だいぶ後まで電気が来なかったケースもありましたか?
(ryoji-o)そうですね、社内の一番復旧が遅かった人で日曜の夜でした。札幌市内でこれだけ差があるので、北海道全体で見ると・・・
(doumae)なるほど、東京の災害対策本部は、
(fujii)窓口では輻輳が起きてなかなかつながらなかったり、リードタイムが長かったりしていましたね。
災害に対するIIJの取り組み(設備編)
(doumae)今回は停電というところで、回線が切れたりしなかったのは、通信側から見れば不幸中の幸いでした。今年非常に印象深かった札幌の地震と停電の話を見てきたわけですが、ここでこれまでの災害に対する取り組みを振り返ってみたいと思います。
IIJが設立されたのは1992年の12月なんですけれども、それから大きな災害はいくつもありましたが、特にインパクトがあったのは95年の阪神淡路大震災、2001年の9.11テロ、そして2011年3月の東日本大震災だと思います。ここにいるメンバーで95年にIIJにいた人は誰もいないのですが、
(fujii)でも、記憶をさかのぼってみると、95年1月にIIJメディアコミュニケーションズができたのよ。いわゆる当時の「ホームページサービス」「レンタルサーバーサービス」をやるためにIIJが子会社を作ったのね。なので当時は企業のホームページはほぼないのね。だから最初は「iijnet.or.jp/企業名」で、独自のメールすらない時代なの。僕は95年9月にIIJメディアコミュニケーションズに転職して、このころはMOSAICを富士通がPCのパッケージとして「X MOSAIC」か何か出したりとかそんな時代です。
(doumae)説明なしに画面に出したこのページですが、
これは95年の震災直後にIIJのページに掲載されたものなんですけれど、何をしていたかというと、インターネット上で情報を集積しているページがないよね、と気づいた当時のIIJスタッフが色々なところからデータを集めてきて、それを載せるということをやったんですよね。fujiiが話したとおり、ネットスケープがまだなくてMOSAICがぎりぎりあった、若い方はご存じないかもしれませんが。この情報をどうやって集めてきたかというと、どうやらネットニュースから集めてきたようで、ネットニュース・・・fjって覚えてますみなさん?(会場、苦笑)。その当時の電子掲示板みたいなものなんですけれど、そこに集まってきたニュースをまとめて掲載することをしてたんですよね。アーカイブにあったのでもってきたのですが、その当時からIIJは災害対策じゃなくて災害対応をしてきたってことだと思っています。2011年の東日本大震災では、私もかかわっていたのですが、キャッシュサーバーに、自治体さんのホームページはどこもかしこも弱くてみんながF5アタックするととまってしまうから、で、超法規的措置というか、グレーというか、というものでしたけれど、自治体のミラーサイトをやってみたんですね。ここに私もかかわっていたんですけれど、このときは阪神淡路のときの話を知らなかったんですよ。知らなかったんですけれど、みんなで集まって「何かできることはないか」と話し合ってやったことだったんですが、後になって知ったとき、考えることは同じようなことだと思いました。
さて、災害が起こったら何かしようという話はあるのですが、そもそも災害が起こっても止まらない、迷惑をかけないってことが重要なんです。そういう観点でわれわれってどんなことをしてきたのか事前に話をしてきたのですが、特筆できることはネットワーク、要になっているのは全国に拠点があるバックボーンネットワーク、これをどう改善していったかという話をしようと思います。きっかけは2011年の東日本大震災なのですが、その前と後で、何が結局違ったんだって話ですね。
(tsutomu)いろんなトポロジーを考えていく中で、災害によって自分たちのバックボーンが影響を受けて、「耐えられる」と思って設計をしているんですけれど、考慮していなかったことが起きると負けたなあと反省して、対策をまた考えます。この図は現在のIIJバックボーンマップで、2011年のバックボーンマップはこちらで、2011年当時、札幌や仙台といった日本の北の方の回線の収納はほとんど東京なんですね。
(doumae)東京と渋谷ですね。
(tsutomu)みなさんもご存知のように、東京は大手町近辺のことで渋谷とは離してあります。このときの考え方は、同じところに収容しておくのではなく、災害が起きたときに一緒に倒れてしまうような場所はどんなところだろう?と考えたときに、これぐらい離しておけば大丈夫だろうなと思った。想定していたのは阪神淡路大震災と同じ直下型地震で、大手町が直下型地震でやられてしまったときに、渋谷と池袋もおなじように破壊されるのか?と考えると地層的には違うので大丈夫じゃないか?というレベルで考えていた。阪神淡路大震災でも神戸は大規模に影響を受けていたけれど、大阪、自分はそのときに大阪にいたので、大阪が大丈夫だったのは知っていて、それぐらい離れていれば大丈夫だろうと考えていた。
(doumae)渋谷と東京(大手町)の距離感が、大阪と神戸の距離感に相当するわけですね。
(tsutomu)そうです、なのでそういう形で東京のバックボーンを作っています。大阪は大阪と心斎橋に入っているようにしていたんですけれども、東日本大震災でやはり大きな影響を受けたのを見ると、そうなると東京2箇所に収容というのはだめだ、東京全体がだめになった時のことも考えるべきだ、エリアを大きく考えてできるだけ離そう、ということに着手していきました。
そしてこれが着手したマップですけれど、
エリアを大きく見て可能な限り離す。東京エリア、名古屋エリア、大阪エリアの3つで冗長をとり、仙台や札幌は東京に収容するだけではなく、東京と名古屋に収容する。ルートも太平洋側と日本海側で分ける。IIJは自前で回線を持っていないので、各キャリアにお願いして、彼らも地震で同じように影響を受けているので、そうだよね今後はこういう風にやっていかなきゃだめだよねということで回線をそのように構成してもらい、われわれも移していく。そしてIIJだとこういう構成で行こうということで、移して、同じような災害が西で起こってもおかしくないということで、西日本の回線も、西日本と名古屋で収容していって、基本的にはおなじように迂回する設計に持っていっています。西の方も山陰・山陽まわりで、場合によっては四国を通っているルートもあるんですけれど、中で分けていて、同じようなところで全断しないような形に持っていってる。
(doumae)それってオーダーできるんですか?
(tsutomu)昔は難しかった。今は、完全にどこの道路をどうやってまでは教えてもらえませんが、ある程度、こっちに通してとかリクエストをして、お願いできるキャリアさんにつくってもらってますね。
(doumae)それを借りて、拠点を完全に離したところに収容して、かつ地理的に同じ場所を通らないようにできるわけですね。
(tsutomu)そうです。これが日本国内で、せっかくなので海外のバックボーンも同じような考え方でいきましょうということで、昔は日本に海外の線が入ってきていても、キャリアさんのところで一括して東京でやってきていました。今は陸揚げ局からなるべく近いところでわれわれのバックボーンに乗せかえたいというところで、名古屋、東京、大阪でつくっていただいて、それぞれ収容する。昔のように国内で冗長を利かせていても、国外に出ていくのは全て東京ですよね、というのでは影響を受けてしまうので、東京が全てだめになってしまっても、名古屋や大阪に回せばなんとかなるようにしていますね。
(doumae)図が結構見にくいですが、よく見ると名古屋から出ているもの、大阪から出ているものがありますね。
(tsutomu)帯域的にも、どこから出ても基本的にはそれなりの通信に耐えられるようにしています。
可能な限り回線の冗長というのと、あとは大西洋や太平洋で何か起きても対応できるようにロシアを通っているケーブルもつくって世界一周しているということになるんですかね。
(doumae)普段はヨーロッパに行く場合ロシア経由の方が速いんですよね、でもシベリアで何かあったら太平洋、大西洋まわりでぐるっとヨーロッパに到達するとか。そういう冗長が組めるってことですね。回線以外の設備も重要ですよね。
(tsutomu)そうですね、認証とかサーバとかについても大阪、東京ほか、いくつかの拠点に分けて設置しています。
(doumae)東西に分けることで、どちらかに大きな被害があってもいける。
災害に対するIIJの取り組み(人とサービス編)
(fujii)さいきん、社内のトレンドで西をわざとプライマリにしておくっていうのがあって。
(tsutomu)なぜかというとですね、IIJもオペレーション的なディザスタは大阪でできるようにしているのですが、ほぼほぼ設計や運用の人間は本社にいます。そのときに、東京に災害があると、全体の機能がとまりかねないので、大阪に最初からプライマリを置いておいて東京に何かあったとき、オペレーターが何もしなくていい状況を作っておく。西日本でなにかあったときには東京の人間がいるので、東京の人間がばっしばっし切り替えて復旧させれば、初動がなにもいらないんじゃない?という発想です。そういうことを提案してくれた人間がいたので「いいね」といって、いくつかのサービスはそうなっています。
(doumae)IIJは西日本にも運用チームがいるんですよね。
(fujii)設備の運用もそうですし、お客様サポートの対応も、サテライトという形で所属は東京、私の部下だったりするんですよ。お客様の対応をするのは一緒だけれど、勤務地はたまたま関西支社。セクションは東京にいる課長のもとで、日々リモートワークのような形で、ミーティングもテレビ会議で、自分の課のいつもやっている仕事をたまたま大阪のオフィスの席でこなしている。だから東京に何かあったときでも、全く同じクオリティで大阪でも対応できるという勤務形態ですね。
(doumae)fujiiさんの部署との打ち合わせは普通テレビ会議ですね。で、東京側で何の気なく設計したサービスを見せると「これ、大阪でも運用できるんですか」とつっこみをうけます。意識していただいているんですね。さっきの災害対策本部の話ですが、ヘッドクオーターも西にもあるんですよね。
(fujii)災害だけじゃなく障害のときもそうなんですけれど、東京で本部を立てます。長期化しそうだと集まって、このときマニュアルもあるんですが、手順はみんな頭にはいっちゃっていて、反射のように電話つないで、ホワイトボード準備して、マグネットをぺたぺた貼って、ものの5分10分で本部を開設できるんですけれども、ここに情報を集約するんですね。そして先ほどお知らせしたように、お客様向けのアナウンスや、社内向けの情報共有や、そういうのを1箇所でまとめて効率的にやると。ただ、たまに、1~2年に1回ぐらい夜をまたぐ、なかなか収束しない大障害もあるんですね。そうすると、東京の人間が眠くなって集中力が切れてくる、すると大阪のサブの人間が本部をたてて、こっから先は西がテレビ会議をつないで代行で対応するから東京の人間は帰って寝なさいと。
(doumae)大阪が東京に代わって本部になるんですね。
(fujii)はい、営業さんがこの部屋に来るとテレビ会議があって、そっちにいる大阪のメンバーに「お客さんからこうこう、こういうことを言われて」と報告できる。すると大阪のメンバーが報告書をリライトしたり、対応をしたりもできるようになっています。
(doumae)たまたま写真に写っているのは大阪のメンバーですけど、同じように東京にも常設の場所がありますね。基本的にそこは空けてあると。
(fujii)はい、用意してありますね。使ってないときはこっそり会議したりしますが。
(tsutomu)会議しても別にいいんですけれど、何かあったらすぐに追い出されるというだけなので。最優先は災害/障害対策本部なので。
(fujii)四半期に1回ぐらい訓練もやっています。
毎回テーマを変えていて「今回はモバイルにしよう。ちょっとあやしいし、もとい、何かあったら本当に大変な事態になるぐらいモバイルが成長したから」とか。で、内緒でシナリオを作って、本当にそのシナリオを社内で流してみて、こういうことがあったらどう動く?という訓練を四半期に1回、大きなものをやっています。この間、この部屋(本イベント会場)をぶち抜いて、全社で技術系以外の人も加えた災害訓練をやりました。先ほど危機管理室が話題に出ましたが、総務や管理本部系の人間も加わって、社員の安否確認、けが人が出たらどうする、訪問されていたお客様がいたらどうする、業務委託の人たちの安全確認とお知らせをどうするっていう「安全系」、それから情報システム部門がありまして、社内のメール、電話、チャット、ファイルサーバー、情報ポータル、リモートアクセス、これらは全部東西にBCP化されてます。それを適切にコントロールする情報システム部門の本部、技術系の本部がそれぞれたって、この部屋で本部間の情報連携の訓練をやりました。
(doumae)この写真では机がひとつしか写っていませんが、実際は5~6個机の島があって、それぞれが本部で、何かあったら連絡しにいくんですけれど、あれ、シナリオ結構面白かったですよね。直接話しちゃいけないとか。
(fujii)開始前にこのスクリーンに地震のビデオが流れましたよね。ゆれてます っていうか。電車がぼこぼこ倒れて。
(doumae)これ、薄暗いじゃないですか。これ、電気消したんですよ。
(fujii)わざとですね。時間は実際の3倍ぐらい早回しでやってたのかな。で、夜が暮れてきましたとなるとカーテンを閉めて暗くして。で「そろそろ家族が心配だから帰りたいよ、という社員が出てきました。どうしますか?」とか。っていう設定シナリオシートを、コントローラーが差し込むわけですね。
(doumae)私も見学しましたが、「今はこの設備が止まっている」「この通信手段は使わないでください」というのがあって、われわれには生活システムにもディザスタ用のがあるので、そっちでやってくださいとか言われるんですよね。あれは結構、迫真というか「や、ここまでやるのね~」という感じでしたね。
(fujii)これぐらいやることで、日ごろの備えというか、心構えが、社員みんなに伝わるようになっていきますね。
(doumae)今の話のなかで「災害対策」「障害対策」と似たような言葉が混じっていたのですが、IIJの中でこの2つの違いっていうのは、どうなんでしょうね?
(fujii)基本になるのは「障害」でしょうね。日ごろはサービスを維持管理していて、サービスがちゃんと動くようにしておく。その日ごろのノウハウが、いざ災害となったときに、自然と適用できるようになっている、というのがうちの立ち位置ですね。
(tsutomu)そうですね。私は東日本大震災ぐらいまでそこらへんの区別があいまいだったんですが、東日本大震災のときに、それまでは大規模障害っていうのはちょいちょい経験していたんでその対応は考えて実践していて、障害対応は作ってあったんですよね。で東日本大震災のときに、自分たちの設備の障害が起きているので、そこでずっと動いていて、誰がどこの確認をするとか、誰がキャリアに連絡するとか分けながらやっていたんですけれど、だんだんそこが組織的に動いていると「じゃあ社員をいつ帰らせたらいいですか」とか、なぜかそういう話が来るようになるんですね。で、僕たちは障害対応、IIJのネットワークの対応、特に復旧をしようとしているのに、何日かたってつかれてきたときに、何で社員の対応をすることになるんだ?という思いがわいてきて、そこから大規模災害のときのコントロールをする対策本部と、対策本部の中の一部として動く障害対策のわれわれを意識するようになった。普段は災害が起きていないので、障害対策だけで動くけれども。災害が起きたときは災害対策本部のなかの障害対策本部として、連携して動きましょうということを全社的にとりきめ、やっていこうとして訓練もしています。
(doumae)東京側でサービスに何かあったときには、支店にも連絡がいきますもんね。
(ryoji-o)そうですね、きますね。
(doumae)で、どうしても東京のこのビルに人数はたくさんいるので、どうしても東京だけでぐるぐるまわりがちなのですが、支店の方にも情報共有するという意識はあります。
(ryoji-o)そこはちゃんとサービス部門からありますね。
(doumae)特に拠点、われわれはそう呼んでるんですが、地方の支店の場合はお客様との関係が密なものなので、何かあるとお客様から電話がかかってくるんですよね。
(ryoji-o)はい、頻繁にお客様から入電が。
まとめ
(doumae)なので、全社含めての情報管理体制がいるんですよね、という話でした。ええ、そんな感じで駆け足できたんですけれども、とにかく今年は災害が多かったという印象だったのでこういうセッションを設定してみました。で、北海道の地震はどうだったのかという話をとりあげて振り返りをさせてもらいました。そこから話を転じて、IIJ自体の災害に対する備えとどういうことをやってきたのかという話をしてみました。
まあそうですねえ、どうですかね、最後こう、なにか。
(fujii)災害対策本部のオペレーションってめっちゃアドレナリン出るんですよ。そのときはやりがいまんまんなのね、だから、ぜひそういうの飛び込んでみたいなという方がいたら、われわれと一緒に働きませんか(会場、じわじわ笑ってる)
(doumae)まさかのヘッドハンティング(笑)当然われわれも全てがうまく回っているわけではありませんが、できるかぎりうまくまわるように日常からの備え、設備の備え、人の備え、そして訓練に関しては色々気にしながらやっているというところです。というわけで、IIJがんばっていますので、IIJのサービス使ってくださいねって話もありますし、もしかしたら今日お話した内容が、みなさんご自身の普段のオペレーションの役に立つことがあるかもしれませんので、よかったら参考にしてみてください。
参考
今回、一部写真をご提供いただいたインプレス様でも本イベントの記事を掲載しています。
INTERNET Watch(2018/12/21)
北海道がブラックアウト、そのときIIJは――インターネット事業者のリアルな体験談と災害対策