アクセス網はどれぐらい輻輳しているか?
2020年12月01日 火曜日
CONTENTS
【IIJ 2020 TECHアドベントカレンダー 12/1(火)の記事です】
はじめに
この記事は同時公開のFontugneの記事「COVID-19のラストマイル遅延への影響」の研究の背景について書いています。コロナ禍でインターネット利用が増えてネットが混んで遅くなったという話をあちこちで耳にしました。しかし、実際に何処がどの程度混んでいるのかを把握することは大変難しい課題です。この記事では、なぜ輻輳の把握が難しいのかを説明して、我々の研究のアプローチを紹介します。技術的な詳細に興味がある方は以下の論文を参照してください。
Romain Fontugne, Anant Shah, Kenjiro Cho. “Persistent Last-mile Congestion: Not so Uncommon“. ACM IMC 2020. October 2020.
ブロードバンドアクセス網の輻輳
固定ブロードバンドサービスのアクセス網の輻輳は、アクセス集中によって加入者光ファイバの共有部分や網終端装置などで部分的かつ一時的に発生します。前者は数十ユーザ単位で、後者は数千ユーザ単位で共有されていて、輻輳が起こると輻輳箇所を共有しているユーザが影響を受けます。ユーザの利用需要に対してISPの提供帯域が不足していると、利用の多い時間帯に輻輳が発生しやすくなります。
アクセス網の品質、特に輻輳状況は、ユーザがISPや接続メニューを選ぶ際に重要な情報ですが、信頼できるまとまった情報はほとんどありません。なかでも、ここ数年、フレッツ網に関してPPPoE網終端装置の輻輳が問題となっています。PPPoE方式はNTTのアクセス回線を使ってISPがインターネット接続を行うフレッツサービスで採用された仕組みで、2000年代前半の日本のブロードバンド普及を成功させた技術でした。しかしながら現在では、専用仕様の網終端装置が収益性の低い接続サービスではコスト高となっていることに加え、当時からの装置の増設ルールが現状に合わなくなっているために、帯域が逼迫していても増設が難しい状況となっています。この問題は総務省の研究会でも議論が続いていますが、定量的な計測データはありません。これは、アクセス網の計測が難しく、ISPを公平な視点で比べるのが難しいからです。
なお、この記事では「アクセス網」と「ラストマイル」を同じ意味に使っています。本来「ラストマイル」はユーザ宅と最寄りの局舎までの「アクセス回線」を指しますが、フレッツサービスなどではこの部分がネットワーク化されて「アクセス網」となっていて1マイル(約1.6km)には収まりません。
輻輳の定量的評価の難しさ
ネットワークの品質は、一般に、スループット、遅延、ジッタ(遅延のばらつき)などで示されます。 輻輳が発生すると、可用帯域が減少し遅延が増加するので、スループットや遅延を観測することで輻輳を推測することができます。スループットや遅延を計測する場合、ユーザ側の端末で計測するのが一般的です。スループットは分かり易い反面、スピードテスト的にネットワークに負荷をかけて測ることになるので、他のユーザやサービスに影響を与える場合があるとともに、測定端末にもそれなりの性能が必要になります。
アクセス網の輻輳を計測する場合には、まず、対象となるアクセス回線の輻輳とそれ以外の箇所での問題を切り分ける必要があります。通常、ユーザがインターネット上のサービスを利用する際のボトルネックには、アクセス網以外にも、WiFiなどの宅内ネットーワーク、ISP間の相互接続箇所、サービス提供側のネットワークやサーバなどが考えられます。特に、宅内のWiFiは、同時に利用している他の通信や電波干渉の影響を大きく受けやすい部分です。可能であれば、ホームルータに直接有線で繋がった端末と、ISPと良好接続した測定サーバの間で測ることで、アクセス網以外の影響を低減できます。また、計測条件をできるだけ揃えることで、輻輳以外の要因による差異を小さくできます。
輻輳の把握で一番難しい問題は、観測点のサンプルの取り方です。2020年時点の国内固定ブロードバンド契約数は4200万程です。輻輳は特定の装置で発生するので、ISPや地域に偏りが出ないようにサンプルを選ぶことが大切です。さらに言うと、100Mbpsや1Gbpsといった契約サービス容量、戸建てかマンションか、都市部か郊外か、アクセス回線はフレッツかなどでも発生状況が異なります。輻輳には、一時的に発生するものと、時間帯によって繰り返し発生するものがあるので、同じ観測点から継続的に計測をする必要があります。また、ユーザに計測を協力してもらう場合は、協力ユーザの集め方でユーザの属性に偏りが生じます。例えば、協力者をネット募集するとどうしても技術に詳しいユーザに偏りますが、その結果、契約ISPやサービスメニューの選択傾向にも偏りが生じます。
モバイル通信の場合は、輻輳情報ではありませんが、主要キャリアが実効速度計測値を公表しています。モバイルでは、通信キャリアの数が少なく、かつ、調査員が複数の場所に移動して公共の場から計測することができます。それに対し、固定ブロードバンドの場合は、ISPの数が多く、また、宅内のホームネットワークから計測する必要があるため調査員を使った手法を取ることは難しいと思われます。
また、宅内からの計測ではなく、サービス側で計測する方法もあります。コンテンツ配信サーバで配信したファイルサイズと転送時間から、おおよその転送速度を計算できます。人気サービスであれば、特定のサービスを利用しているユーザという偏りがあるものの、膨大な数の利用者のデータが取得可能です。ただし、分かるのはあくまでサービスを提供した速度であり、これはWiFiや利用端末の違いなどの様々な要因を含んだサービス速度です。したがって、ユーザの利用動向を見るには適していますが、ここからアクセス網部分の通信状況だけを切り出すことは困難です。
このように、アクセス網の輻輳に関しては、個別の観測は沢山ありますが、ISPを比較できるような網羅的なデータを得るのは難しい状況です。
ラストマイル遅延計測
我々の研究では、曖昧なデータを集めて統計処理するビッグデータ解析の手法を用いて、うまく工夫すれば既存のオープンデータからアクセス網の輻輳状況をある程度抽出できると考えました。今回利用しているのは、RIPE Atlasプロジェクトのオープンデータです。これは、ヨーロッパのインターネットレジストリであるRIPE NCCが2010年に開始した世界中に小型計測ノードを配って、pingやtracerouteを使った計測データを収集するプロジェクトです。2020年時点で世界中にアクティブなプローブと呼ぶ計測装置が1万以上、日本にも200弱あります。
我々のアプローチは、Atlasプロジェクトのtracerouteのデータからラストマイル部分の区間遅延を抽出して、それを基に事業者などのグループ別に集約した遅延変動値で表すことで、グループ間の輻輳状況を比較ができるようにしています。以下にその手法を大まかに説明します。tracerouteデータ中の最初のグローバルIPアドレスの手前区間の差分RTTをラストマイル遅延値とします。差分RTTは、そのままでは値のばらつきが大きいのですが、充分なサンプル数があればその中央値は安定しています。各Atlasプローブは、30分間隔で特定のサーバ群に対してtracerouteを実行するので、30分毎に216サンプルの区間RTTを得ることが可能で、その中央値をラストマイル遅延値とします。さらに、30分毎の遅延値の時系列をその中の最小値からの差分である遅延変動値に変換します。これを事業者毎に集約するには、該当事業者内の全てのプローブのデータから時間帯ごとに中央値を取り出し、その事業者の遅延変動値の時系列とします。この時系列の変化量が時間帯による輻輳レベルを示しています。最後に、慢性的に輻輳が起きている事業者を自動抽出するために、24時間周期の遅延変動値の大きさで事業者を4段階のクラスに分けています。
この手法では、複数のプローブの中央値を使うことで、過半数のプローブがそれ以上の遅延を観測していたと言うことができます。数ミリ秒レベルの遅延変動値増加でも、スループットが大きく低下して輻輳が起っていることを、CDNなどのデータを使って検証しています。
解析結果
過去3年間のデータを解析した結果、全世界で10%程の事業者において日常的な輻輳が発生していることが分かりました。 さらに、コロナ禍で輻輳している事業者が55%増加していました。特に日本では、シビアな輻輳と分類された事業者割合が18%と他国より目立って高い結果となりました。詳しく調べると、フレッツ網を使った事業者の輻輳が顕著で、PPPoE網終端装置に起因していると考えられます。結果の詳細は解析に用いたコードやデータとともにプロジェクトのサイトで公開しています。なお、これらの結果は、あくまで時間帯による遅延変動の大きさの比較です。帯域や遅延の絶対値で日本が劣っている訳ではありません。実際、コロナ禍で日本だけがスループットが向上しているという報告もあります。我々も同様の観測をしていて、これはオリンピックの準備で計画された回線増強がこの時期に行われたためだと考えています。
制約事項
我々の手法は、あくまで少ないプローブ数でもデータ数が十分あれば比較的安定した指標を抽出できるとしているに過ぎず、元々のサンプリングの問題を解決している訳ではありません。つまり、Atlasプローブはボランティアの自宅に置かれているので、サンプルに偏りはあり、場合によっては中央値もずれてしまいます。また、プローブ数が少ない事業者は解析結果の信頼度は低くなります。さらに、事業者が複数のサービスメニューを提供していても違いを区別できないので、全体の中央値で代表しているに過ぎません。
まとめ
アクセス網の輻輳は、ユーザのインターネット利用に直接関わる問題ですが、その計測は一般性のある定量化が難しい課題です。この記事では、我々の研究の背景としてなぜアクセス網の輻輳の把握が難しいかを説明しました。我々の研究では、ビッグデータ解析のアプローチによりRIPE Atlasデータから慢性的輻輳を評価する手法を提案し、おおまかながらISPの輻輳状況を比較できることを示しました。最近のデータからアクセス網の慢性的輻輳が一部のISPで観測されていて、コロナ禍で輻輳が増えている状況を報告しました。また、国別に見ると、日本は輻輳が顕著であり、その原因としてフレッツ網のPPPoE網終端装置が考えられることを報告しました。