MITの研究者は、1万コアのスーパーコンピュー「MIT SuperCloud」を用いて世界中のネットトラフィックがどう見えるかをキャプチャするモデルを開発した。
従来の手法では、送信元/宛先間のパケット交換は制限範囲内での小さなサンプルでしか分析できなかった。今回開発の手法では、スーパーコンピューティングリソースを活用してネットトラフィック全体を効率的に処理。意味のあるパターンを特定できる。
・世界最大のネットトラフィックデータセットを作成
研究者らは、日本のWIDE(Widely Integrated Distributed Environment)プロジェクトやカリフォルニア州の応用インターネットデータ分析センター(CAIDA)と協力し、2015年からランダムな日程で日米各地のデータを取得してきた。アプリやサービスでの匿名化されたパケット、送信元/宛先のデータポイントは約500億にのぼり、GoogleやFacebookなんかを利用する際の一般的なものから、短時間接続するだけでWebトラフィックに影響を与えるレアなものまでが含まれている。
これらのデータセットを用いてリンク内の関係をキャプチャするモデルをトレーニング。データの前処理を工夫し、正規分布での外れ値にあたるデータにまで重みをつけることで、ネット上での大規模な繋がり以外の、孤立リンク(相互の繋がりがほとんどないノード)までもが認識できるようになった。
・社会的ネットワークの分析にも
モデルは、任意の大規模ネットワークのデータセットを取得して、ネットワーク内のすべてのリンクが互いにどのように影響するかについての統計的測定値が得られる。これにより、ピアツーピアのファイル共有、悪意のあるIPアドレスやスパム行為、重要セクターでのサイバー攻撃の分布、あるいはトラフィックのボトルネックなんかが明らかになるという。
活用範囲はインターネットトラフィックにとどまらず、生物学的ネットワークや社会的ネットワークといったものも分析できるとのことで、さまざまな領域で、これまで見逃されてきた重要な事実が明るみに出そうだ。
参照元:Supercomputer analyzes web traffic across entire internet/MIT News