モデルのトレーニングに特化したGPUの利用がベストだとしても、そのコストがボトルネックになることがあるだろう。
こうしたなか、ライス大学の研究者が汎用的なCPUでも高速なトレーニングが可能なことを示した。研究者が開発したアルゴリズム「SLIDE(Sub-LInear Deep learning Engine)」は、従来のフレームワークとは全く別のアプローチでのトレーニングを実行する。
・GPUによるトレーニングの3.5倍速を実現
GPUは、CPUと比べて多くのコアを搭載可能。その演算処理性能の高さから、ディープラーニングにとってなくてはならない存在だ。AIの進化はGPUの進化とともにあるといっても過言ではなく、なかでもNVIDIA V100は、ディープラーニング性能で100テラフロップス (TOPS)の壁を初めて突破し、金字塔を打ち立てている。
ところが今回、Intel Xeonプロセッサー(44コア) × SLIDEは、大規模アーキテクチャと推奨データセットによる評価で、NVIDIA V100 × TensorFlowの3.5倍のトレーニング速度をたたき出した。
・同じハードウェア構成ではTensorFlowの10倍速
SLIDEでは、マルチコア並列処理とワークロードの最適化により、トレーニングと推論での計算量を大幅に削減できるようだ。これにより、NVIDIA V100 × TensorFlowで3.5時間を要するトレーニングを1時間に短縮。また同じCPU構成では、TensorFlowを用いたトレーニングの10倍速を実現したとのこと。
特別なGPU不要で高速なトレーニングができることが示されたのは目から鱗。もちろん、すべてのアーキテクチャで同じ結果になるわけではないが、今後のさらなるアルゴリズム最適化により、ディープラーニングでのCPU利用もぜんぜんあり……という話になるかもしれない。
参照元:SLIDE : In Defense of Smart Algorithms over Hardware Acceleration for Large-Scale Deep Learning Systems/ arXiv