海外・国内のベンチャー系ニュースサイト | TECHABLE

TECHABLE

Tech 世界初! Facebookとカーネギーメロン大のAIが6人プレーのポーカーを制す

Tech

世界初! Facebookとカーネギーメロン大のAIが6人プレーのポーカーを制す

SHARE ON

このエントリーをはてなブックマークに追加
Facebook AI Researchとカーネギーメロン大学の研究チームが開発した「Pluribus」が、6人プレーのポーカーで圧勝し、話題を呼んでいる。

1対1の対戦においては、2017年に同研究チームによる「Libratus」がプロを破っているが、マルチプレーヤーゲームにおいてAIがヒトに勝つのは初めてだ。AIの積年の課題だった不完全情報/マルチプレイヤーゲームをついに制したことになる。

より多くの掛け金を得たアクションを学習

完全情報ゲームである将棋や囲碁は、指し手を見て評価ができるのに対し、ポーカーはプレイヤーの手札が不明など、限られた情報から最善のアクションを選択しなければならない。

さらに、1対1ではプレイヤーは勝ちか負けの条件が明確なのに対し、マルチプレーヤーゲームではプレイヤーどうしの利害関係のパターンが無限。このことがゴール設定と戦略の立案を大変複雑なものにしている。

Pluribusがアクションを学習するにあたっては、DeepMindによる「Alpha Zero」と同じ強化学習形式がとられたようだ。白紙の状態から自分自身との対戦を何兆回も繰り返し、より多くの掛け金を得たアクションを覚えていった。

少し先のアクションを検索するだけで適切な選択が行える

ほとんどのゲームポットは、与えられた状況下において最善のアクションをとるために、膨大なパターンを検索する。たとえば、Libratusでは、アクションのたびにゲームの終わりまでのパターンを検索している。

これに対してPluribusは、選択のポイントごとに、少し先までのパターンを検索するだけで適切なアクションがとれるという。こうした設計もあり、Pluribusはこれまでのゲームボットよりも必要なコンピューティングリソースが少なくて済むようだ。

実践ではプロ5人に圧勝

Pluribusのトレーニングは、64コアCPU、RAMは512GBのサーバーで8日間のうちに行われた。費用に換算すると、一般的なクラウドコンピューティングリソースを利用した場合、150ドル未満とお安い。また、実践で使用されるCPUは2基のみ。DeepMindのAlpha GoがCPU+GPUで2000基、LibratusがCPU100基使用していることを考えると驚異的な少なさといえるだろう。

節約設計にも関わらず、実践でのパフォーマンスは高かったようで、プロ5人+Pluribusのプレーでの勝率は、プロとアマチュアが混在したプレーでのプロのものよりも高かった。今後は課題解決型のAIの見本となることを目指すという。2

参照元:No limit: AI poker bot is first to beat professionals at multiplayer game/Nature
Facebook, Carnegie Mellon build first AI that beats pros in 6-player poker/Facebook AI blog

関連記事

Techableの最新情報をお届けします。
前の記事
次の記事

#関連キーワード


WHAT'S NEW

最新情報