インテリジェントな自律走行システムを実現するためのアプローチの1つに、マッピングからアクションまでを一貫してトレーニング(エンドツーエンドの強化学習)するものがあるが、このアプローチの弱点は学習にコストがかかること。大規模な環境下での探索には不向きだという。
カーネギーメロン大、こうした弱点を克服すべく、「アクティブニューラルSLAM」と呼ばれるアプローチを発表している。
新旧ハイブリッドのアプローチ
アクティブニューラルSLAMは、古典的な計画アルゴリズムを用いたものとエンドツーエンドの強化学習を用いたもの、両方のいいとこどりをしたアプローチだ。大規模な環境で効率的な探索を行うには、もとの環境を把握したうえで、自分の場所や新たな障害物などを推定。目標位置へ移動するための行動計画を立案する必要がある。
保有するマップと観測により、まず環境と現在位置を予測する。これを利用して長期目標を生成。さらに、長期目標と観測をベースに短期目標を生成し、前進やターンなどステップごとの行動を計画する。
モジュール式のシステムが柔軟性を高める
アクティブニューラルSLAMでは、環境と現在位置を予測には教師あり学習を、長期目標の生成では強化学習を、さらに短期目標の生成には畳み込みニューラルネットワークとリカレントニューラルネットワークをそれぞれ用いている。また、行動計画を暗黙的に学習するのではなく、明示的なマップを利用した計画アルゴリズムを利用。このハイブリッドアプローチにより、堅牢性とパフォーマンスを向上させているのだという。
シミュレーション環境下のテストでは、設定された時間内に生成するマップの総面積を最大化するという目標において、アクティブニューラルSLAMが既存のシステムよりも高評価となった。
さらには、センシングデータでトレーニングした探索モデルを短期目標の生成に組み込むことで、現実世界でも機能。入力を柔軟に利用できて、行動計画のエラーにも強いことが証明されたかたちだ。
参照元:Learning to Explore using Active Neural SLAM/ ML.CMU