こうしたコンピュータビジョンの盲点を指摘すべく、MITとIBMによる研究チームは、一風変わったシチュエーションばかりを集めた写真のデータベース「ObjectNet」を公開した。
ObjectNetでは、一般的にコンピュータビジョンのトレーニングに用いられるImageNetがカバーしきれていないデータ5万点を扱っている。
・主要モデルの認識精度が40~45%低下
ImageNetに挙がっているのが、FlickrなどのSNS投稿写真。つまり、共有しようとの気が起きない写真についてはトレーニングデータに使われていない可能性が高いわけだ。具体的には、あらぬ方向を向いていたり、雑多に紛れていたり、見切れていたりするオブジェクトの写真がこれにあたる。実際、主要なオブジェクト検出モデルをObjectNetの写真でテストしたところ、40~45%の精度低下が見られたようだ。
現実世界ではオブジェクトはあらゆる角度で配置されている可能性があり、検出器がこうしたものを見逃すことで、自動運転などでは致命的な事態につながり得るだろう。
・トレーニングデータを増やしても精度向上はほとんどなし
ObjectNetのデータセットは、ImageNetのものと違いトレーニングデータとテストデータに分割されていない。通常、同じデータセットを用いてトレーニングとテストを行うとパフォーマンスは高く表れるが、ObjectNetのものではその影響はわずかだったという。オブジェクトがあらゆる向きや視野角で存在することを検出器が理解するのはまだ困難で、たとえObjectNetのデータセットが膨大なものになっても認識精度向上につながるとは限らないとのこと。
つまりObjectNet公開の目的は、直接的なコンピュータビジョンの認識精度向上というより、さらなる技術開発を……ということになるかと思う。
参照元:This object-recognition dataset stumped the world’s best computer vision models/ MIT News