昨年、同社の「AlphaGo」が世界最高峰のプレイヤーの一人を打ち負かしたことが記憶に新しいが、当時は1カ月間の人間による訓練が必要だった。
このほどScience誌に掲載された研究では、AlphaZeroと、人間によって入念に手作りされた各ゲームの最強システム、「Stockfish」(チェス)、「Elmo」(将棋)、AlphaGoとの対戦結果が示されている。
・チェス、将棋、碁すべてをAlphaZeroが制覇
1ゲームの制限時間は3時間、1手の持ち時間は15秒というルールで対戦した結果、チェスでは1000試合中155試合でAlphaZeroが勝利し、Stockfishが勝ったのはわずか6試合。他はドローとなった。また将棋でもElmoに圧勝し、勝率は91.2%だった。さらには碁でも、勝率61%でAlphaGoを破っている。
AlphaZeroは自己訓練で強くなる。何百万回のランダムな試行錯誤を繰り返し、勝ち、負け、引き分けからニューラルネットワークのパラメータを調整して学習する。
必要な訓練量は、ゲームのスタイルと複雑さによって変わり、チェスで約9時間、将棋で約12時間、碁で約13日間とのこと。
・創造性を持つAI
特筆すべきは、AlphaZeroがルールすら知らないところから訓練をおこなっていること。これにより、人間が想像もつかない手を繰り出すことがよくある。例えば、将棋理論では王の周りを固めて守るのが必然だが、AlphaZeroでは王が盤上の中心に独走することもある。
AlphaZeroでは、長期的な視点で利益を見ているため、それぞれの駒の価値や目的を無視したダイナミックなプレイをおこなうのだ。
特定の技術を高いレベルで習得するのが得意な従来のAIでは、状況が少し変わっただけでタスク遂行に失敗してしまうという課題がある。
AlphaZeroの、素早く未知の状況を学習して創造するシステムは、現実世界のさまざまな問題を解決するAI作成に役立つという。
・2~3年以内にはStarCraftやMinecrafも
AlphaZeroは、次のステップとしてマルチプレイヤータイプのゲームを制する必要があり、2~3年以内にはStarCraftやMinecrafといったゲームも踏破可能だとの見方もある。その後は、より現実環境に近い不完全情報のゲームに関してもマスターしていくことになり、汎用学習AIの開発につながるかもしれない。
参照元:AlphaZero: Shedding new light on the grand games of chess, shogi and Go/DeepMind
DeepMind Achieves Holy Grail: An AI That Can Master Games Like Chess and Go Without Human Help/IEEE Spectrum