MITの研究者が開発したゲームボット「DeepRole」は、オンラインゲーム「レジスタンス:アヴァロン」をプレイし、隠されたプレイヤーの役割および勝利のための最適なアクションを推測する。
・ゲームツリーの推定値と実際のアクションを比較
アヴァロンでは、3人のプレイヤーが「レジスタンス」チームに、2人のプレイヤーが「スパイ」チームに割り振られる。割り振りはランダムかつ秘密裏に行われ、レジスタンスはこれを推測しながらミッションを成功に導く。一方スパイは、すべてのプレイヤーの役割を知っており、正体を知られずにミッションの失敗を企てる。
DeepRoleでは、ポーカーボットで使用されるAIアルゴリズム「CFR(Counterfactual Regret Minimization)」に新しい演繹的推論を追加。自己対戦を繰り返すことでゲームを学習した。
表出したアクションを通してプレイヤーの役割を推測し、ゲームが進むにつれてその確率を高めていく。同時に自分の役割を隠し通す必要もある。
・ヒトの行動からその意味を推測
DeepRoleは4000ラウンド以上人間と対戦し、レジスタンスとスパイの両方の役割で、人間のプレイヤーの勝率を上回った。アヴァロンでは他のプレイヤーとチャットする機能が備わっているが、DeepRoleはこれを使わずに勝利している。それはそれで驚異的だが、人狼系ゲームのなかにはメンバーとのやり取りがより重要となるものもあるため、次のステップでは簡単なテキスト通信を実装するとのこと。
じつはこの一連の研究は、ヒトの情報に基づいた意思決定プロセスをモデル化しようとのプロジェクトの一部。人間の言動から学習して機能するロボットを開発するのが最終目標となる。
社会生活においてヒトは、他人から学び協力しながら集団で機能するが、ロボットもこうした高度な学びと協力が可能になるかもしれない。
参照元:Bot can beat humans in multiplayer hidden-role games/ MIT News