1対1の対戦においては、2017年に同研究チームによる「Libratus」がプロを破っているが、マルチプレーヤーゲームにおいてAIがヒトに勝つのは初めてだ。AIの積年の課題だった不完全情報/マルチプレイヤーゲームをついに制したことになる。
より多くの掛け金を得たアクションを学習
完全情報ゲームである将棋や囲碁は、指し手を見て評価ができるのに対し、ポーカーはプレイヤーの手札が不明など、限られた情報から最善のアクションを選択しなければならない。さらに、1対1ではプレイヤーは勝ちか負けの条件が明確なのに対し、マルチプレーヤーゲームではプレイヤーどうしの利害関係のパターンが無限。このことがゴール設定と戦略の立案を大変複雑なものにしている。
Pluribusがアクションを学習するにあたっては、DeepMindによる「Alpha Zero」と同じ強化学習形式がとられたようだ。白紙の状態から自分自身との対戦を何兆回も繰り返し、より多くの掛け金を得たアクションを覚えていった。
少し先のアクションを検索するだけで適切な選択が行える
ほとんどのゲームポットは、与えられた状況下において最善のアクションをとるために、膨大なパターンを検索する。たとえば、Libratusでは、アクションのたびにゲームの終わりまでのパターンを検索している。これに対してPluribusは、選択のポイントごとに、少し先までのパターンを検索するだけで適切なアクションがとれるという。こうした設計もあり、Pluribusはこれまでのゲームボットよりも必要なコンピューティングリソースが少なくて済むようだ。
実践ではプロ5人に圧勝
Pluribusのトレーニングは、64コアCPU、RAMは512GBのサーバーで8日間のうちに行われた。費用に換算すると、一般的なクラウドコンピューティングリソースを利用した場合、150ドル未満とお安い。また、実践で使用されるCPUは2基のみ。DeepMindのAlpha GoがCPU+GPUで2000基、LibratusがCPU100基使用していることを考えると驚異的な少なさといえるだろう。節約設計にも関わらず、実践でのパフォーマンスは高かったようで、プロ5人+Pluribusのプレーでの勝率は、プロとアマチュアが混在したプレーでのプロのものよりも高かった。今後は課題解決型のAIの見本となることを目指すという。2
参照元:No limit: AI poker bot is first to beat professionals at multiplayer game/Nature
Facebook, Carnegie Mellon build first AI that beats pros in 6-player poker/Facebook AI blog