抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
テキスト出現ゲームは,それらのコンビナトリアルに大きい行動空間と疎な報酬のために,強化学習法に独特の挑戦を提示する。これらの2つの要因の相互作用は,大きな行動空間が大規模な探索を必要とするので,特に要求され,一方,疎な報酬は限られたフィードバックを提供する。本研究では,各エピソードの中でこれら2つの戦略を明示的に解きほぐ多段アプローチを用いて,探索対拡張ジレンマに取り組むことを提案した。eXploit-Ten-eXplore(XTX)と呼ばれる提案アルゴリズムは,過去のから有望な軌跡の集合を模倣する開発政策を用いて各エピソードを始め,次に,非Se状態空間を導く新しい行動を発見することを目指した探索政策に切り替える。この政策分解により,人間がこれらのゲームにいかに接近するかによって動機づけられた空間において,ゲーム空間の一部が,その空間において,その部分が,その空間において,どのように返るかについて,グローバル決定を組み合わせることを可能にした。著者らの方法は,決定論的および確率的設定において,それぞれJerichoベンチマーク(Hausknechtら,2020)から12ゲームを超える27%および11%の平均正規化スコアによって,以前のアプローチよりも著しく優れていた。Zork1のゲームにおいて,特にXTXは,事前の方法よりも2xの改善よりも103のスコアを得て,以前の最先端技術に悩まされたゲームにおけるいくつかの既知のボトルネックを押し出す。【JST・京大機械翻訳】