文献
J-GLOBAL ID:202002220996232034   整理番号:20A2462206

ターンベースゼロ和Markovゲームのための強化学習について【JST・京大機械翻訳】

On Reinforcement Learning for Turn-based Zero-sum Markov Games
著者 (4件):
資料名:
号: FODS ’20  ページ: 139-148  発行年: 2020年 
JST資料番号: D0698C  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
2層ターンベースゼロ和ゲームに対するNash均衡を見つける問題を考察した。アルファGoゼロ(AGZ)アルゴリズムにヒントを得て,強化学習ベースのアプローチを開発した。特に,”探索”,”ポリシー改善”と”監督学習”を組み合わせたExplore-Imped-Supervise(EIS)法を提案し,Nash均衡に関連する価値関数とポリシーを見出した。そのようなアプローチに対する収束と正当性のための十分条件を同定した。ランダム政策を「探索」に用いるEISの具体的事例に対して,「ポリシー改善」のためにモンテカルロツリー探索を用い,「監督学習」の最近傍を用いて,この方式が,ゲームの根底にある状態空間が連続的でd次元である場合,O(ε-(d+4))ステップにおけるNash均衡のε近似値関数を見つけることを立証した。”教師付き学習”では,この方法がNash均衡のε-近似値関数を見出す。”その方法”は,”教師付き学習”に対して用いられる,という事を,著者らは,この解法が,O(ε-(d+4))ステップにおいて,Nash均衡のε近似値関数を見出す,という事を確立したものである,という事を,著者らは,この解法が,O(ε-(d+4))ステップにおいて,Nash均衡のε近似値関数を発見することを確立した。これは,任意の政策に対してOmega(ε-(d+2))の下限を確立するので,ほぼ最適である。Please refer to this article’s citation page on the publisher website for specific rights information. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
ゲーム理論  ,  人工知能 
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る