クラウドネイティブ時代の運用監視とオブザーバビリティの重要性
2025年01月16日 木曜日
CONTENTS
始めに
IIJの福原です。サポートセンターの24-365勤務、システム監視運用設計担当を経て、IIJ統合運用管理サービスの企画/開発に従事しています。今回は本日(2025年1月16日)プレスリリースした「IIJ統合運用管理サービス(UOM) オブザーバビリティ」の開発背景をご紹介します。
クラウドネイティブ時代の監視のあり方
「IIJ統合運用管理サービス(以下、UOM)」は「PATROLCLARICE(通称パトクラ)」やZabbixを使ったSaaS型の監視サービスを提供しています。これらのツールはサーバやネットワークインフラを柔軟に監視できる便利な監視機能を備えています。昨今のシステム開発に目を向けると、クラウドへのシフトが加速し、コンテナやPaaSを活用するケースが増えてきています。この結果、システムの監視は、これまでのインフラよりも上流のアプリケーション領域に移りつつあります。
ユーザ動向に目を向ける
例えば、ショッピングサイトでは、顧客に商品を購入してもらうことでビジネスが成り立ちます。顧客がスムーズに購入できたかどうかは、これまでの監視の概念ではあまり気にされていませんでしたが、本質的にはサイトが遅い等のシステム的な問題がなかったかをUX観点でチェックすることは非常に重要なポイントです。つまり、顧客操作によってアプリケーションがどのように動いたかをユーザ目線できっちりと見ていく必要があるのです。従来の監視はどちらかというと、インフラリソースの状況(CPU利用率等メトリクス情報)や特定のイベント(アプリケーションのErrorログ)に重きが置かれ、アプリケーション観点ではWEBの応答速度(HTTPSのレスポンス)に留まっていました。
障害調査は運用現場の鬼門
運用現場が大変なのは、Errorログはなぜ発生したのか?といった原因を特定する作業です。実際の調査方法を考えると、該当のサーバにログインしてアプリケーションログを確認したり、サーバリソースに問題がないか調査したり、あの手この手で奔走します。クラウドネイティブ化が進むとより事態は深刻で、PaaSにはそもそもログインできませんし、複数のクラウドを跨いでいたりしますから、時間がかかってしまうことは想像に難しくないと思います。従来の監視ツールでも複数クラウドのメトリクスやErrorログ等のイベントを監視してグラフ化できますが、調査材料としてのデータは足りているのでしょうか?
調査に欠かせないデータ
では実際に、Errorログが出たときの調査に何をしていくかを考えてみましょう。Errorが出たログで事象の発生はわかるものの、前後のアプリケーションの処理がどう行われたのかはわかりませんので該当する一連のログを実機に入って確認することになります。アプリケーションが単一のサーバで完結していれば一台の調査で済みますが、プロキシ、WEB、アプリ、DB等の役割に分かれてサーバやPaaSが複数連動しているのが一般的です。こうなると、関連する構成要素(サーバやPaaS)のメトリクスやアプリケーションのログが網羅的に必要になります。さらに、ログの関係性がわからないため、ログから処理時間をもとに突き合わせる作業に追われることになります。そこで、これまでの監視では気にされてこなかったトレース情報というのが肝になってきます。
トレース情報の重要性
システムの関係性を横断的に明らかにする情報として、トレース情報を取得することで、アプリケーション間のつながりがわかるだけでなく、メトリクスとログの関連付けができるようになります。この結果、問題発生時の関連する構成要素に対して横断的な調査を実現できます。また、トレース情報を活用すると、アプリケーション間のやりとりをサービスマップとして可視化したり、遅くなっている箇所を強調表示させることで視覚的に捉えられるため、原因の早期特定につながります。
オブザーバビリティ機能を月額サービス提供
これまでの監視で使われてきたメトリクスとログにトレース情報を加えた形で、クラウドネイティブ化されたシステムを、コンテナを含むインフラ、PaaS、そしてアプリケーションまでフルスタックで可視化していきます。UOMでは、Splunk Observability Cloud(以下、Splunk)をエンジンとして採用してオブザーバビリティサービスを提供します。Splunkはメトリクスを最短で1秒から取得することに加え、トレース情報やログをノーサンプリングで収集できるため、障害調査の強力な味方になってくれます。例えば、アプリケーションの動作遅延をサービスマップで確認し、そこからドリルダウンして、トレース情報の確認、アプリケーションログの確認、そしてインフラリソースの状態確認といった具合に、サーバにログインせずとも一つのツール上でシステムを横断的に調査できるようになります。この結果、WEBに異常をもたらしていた原因をいち早く特定し、対処していくことができるようになります。
UOM オブザーバビリティの特徴
UOMでは、Splunkの日本語サポートや、日本円での月額請求が可能なことに加え、従来のUOM機能と組み合わせて、システム運用を効率化することができます。例えば、オブザーバビリティで検出したイベント(問題事象)をUOMの自動電話通知を使って通報したり、ITSMでイベントを管理することで、運用サイクルを全面的にサポートできます。
今後の展望
オブザーバビリティは障害調査の味方になってくれますので、UOMの運用機能でもオブザーバビリティを活用した障害対応機能を追加していきたいと考えています。これまでの手順書ベースの対応やインフラ調査だけでなく、アプリケーションの状態も含めて、システム運用をフルアウトソースしていただける世界を目指していきます。