意外に手薄な領域として聴覚関連が残っていることに気づいたカーネギーメロン大の研究チームは、ロボットのアクションと音の相互作用を掘り下げることに。この手のものでは初となる大規模研究を実施している。
60種類のモノを1万5000回以上転がして音データを収集
研究チームは、トレイを傾けて中のモノを転がす「Tilt-Bot」を利用し音/視覚データを収集。トレイの各壁に取り付けられたマイクとカメラを使用して、それぞれのデータを関連付けた。Tilt-Botは、60種類のモノを転がし、のべ1万5000回以上トレイの壁にモノを衝突させている。ここから得たデータセットを使用してアクションと音の関連を分析したところ、まず、音からモノが識別できる可能性が明らかになった。例えば、金属製のドライバーとレンチは音で区別できるとのこと。
視覚データよりも24%優れた操作予測
次に研究チームは、音からアクションを予測できることを発見。モノにどのようなアクションが加えられればその音が出るかが予測できたという。さらには、音データを利用すれば、視覚データよりもモノをうまく操作できる可能性が示された。実験では、これまでデータのなかったモノを対象に操作手順を予測したところ、音データを利用した方法は視覚データを利用した方法よりも24%精度が高かったとのこと。
モノを扱ううえで音データに頼ることの有効性が示された同研究結果は、今後のロボット開発に新たな切り口をプラスしてくれそうだ。
参照元:Swoosh! Rattle! Thump! - Actions that Sound/ CMU