ポーカー AIを構築するためのステップ-パート1:概要と歴史

トマス・トレナー
2020年4月1日•2分読み取り

これは、不完全な情報ゲームの背後にある基本的な理論を概説する一連の記事の最初のものです(ポーカーは一例です)そして、これらのゲームを解決するためのゲーム理論と計算ツールまたは,もっと重要なのは、私たちに,最高の人間の選手を打つことができるAiを構築します.

チェスや囲碁のような完全な情報ゲームの分野では、ディープラーニング技術を適用することによって多くの最近の進歩がなされているが、これらは不完全な情報設定に直接変換されるものではないことに注意してください。 この詳細については、もう少し後に説明します。

写真:Michał Parzuchowski On Unsplash

ディープラーニング技術に基づく超人的なパフォーマンスを持つポーカー Aiが存在しないにもかかわらず、コンピュータポーカーやポーカー Aiの分野での進歩は、それにもかかわらず、近年急速になっています。 増分アルゴリズムの改善の各セットは、AIsがポーカーのこれまで以上に複雑なバージョンで人間を打つことができました。 広く注目された最初の突破口は、2015年にCepheusがリリースされたときに来ました。 これにより、101以上の情報セットを持つ人気のあるポーカーバリアントであるヘッズアップリミットのテキサスホールデムのゲームが解決されました(情報セットは、利用可能な情報を一緒にプールして区別することができないいくつかの異なるゲーム状態と考えることができます)。 これに続いて、2017年には101÷1の情報セットを持つheads-up No-Limit Texas Hold’emで最高のプロのポーカープレーヤーの四人を決定的に破ったLibratusが続きました。 最後に、2019年の夏、Pluribusがリリースされ、6ハンドのノーリミットTexas Hold’emでhuman professionalsに決定的な勝利を収めました。 これは、特に現金ゲームで、そこに最もプレイポーカーバリアントの一つです。 驚くべきことに、彼らは数百ドルしかかからず、ライブプレイはコモディティハードウェアで行われたAWSリソースを使用してPluribusを訓練することができま したがって、少なくとも理論的には、自宅でPluribusの能力に近づくボットを作成することは可能でなければなりません。

しかし、今のところ歴史で十分です。 このシリーズの次の記事では、次のトピックについて説明します:

  • 不完全な情報ゲームのモデリング
  • 後悔マッチング
  • 後悔マッチングのPython実装
  • クーンポーカーと反事実後悔最小化(CFR)
  • PythonでCFRを実装
  • 悪用、マルチプレイヤー CFRと3プレイヤー Kuhnポーカー
  • LEDUC Hold’emとPythonのより一般的なCFRルーチン
  • Hold’emルール、およびポーカーにCFRを使用する際の問題
  • …TBD

新しいパーツが公開されたときに更新を取得するには、Twitter

コメントを残す

メールアドレスが公開されることはありません。