テキストゲームにおける戦略的探索のための多段階エピソード制御【JST・京大機械翻訳】

Tuyls Jens; Yao Shunyu; Kakade Sham; Narasimhan Karthik

プレプリント

J-GLOBAL ID：202202220450379241 整理番号：22P0023488

テキストゲームにおける戦略的探索のための多段階エピソード制御【JST・京大機械翻訳】

Multi-Stage Episodic Control for Strategic Exploration in Text Games

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2022年01月04日プレプリントサーバーでの情報更新日： 2022年03月15日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

テキスト出現ゲームは,それらのコンビナトリアルに大きい行動空間と疎な報酬のために,強化学習法に独特の挑戦を提示する。これらの2つの要因の相互作用は,大きな行動空間が大規模な探索を必要とするので,特に要求され,一方,疎な報酬は限られたフィードバックを提供する。本研究では,各エピソードの中でこれら2つの戦略を明示的に解きほぐ多段アプローチを用いて,探索対拡張ジレンマに取り組むことを提案した。eXploit-Ten-eXplore(XTX)と呼ばれる提案アルゴリズムは,過去のから有望な軌跡の集合を模倣する開発政策を用いて各エピソードを始め,次に,非Se状態空間を導く新しい行動を発見することを目指した探索政策に切り替える。この政策分解により,人間がこれらのゲームにいかに接近するかによって動機づけられた空間において,ゲーム空間の一部が,その空間において,その部分が,その空間において,どのように返るかについて,グローバル決定を組み合わせることを可能にした。著者らの方法は,決定論的および確率的設定において,それぞれJerichoベンチマーク(Hausknechtら,2020)から12ゲームを超える27%および11%の平均正規化スコアによって,以前のアプローチよりも著しく優れていた。Zork1のゲームにおいて,特にXTXは,事前の方法よりも2xの改善よりも103のスコアを得て,以前の最先端技術に悩まされたゲームにおけるいくつかの既知のボトルネックを押し出す。【JST・京大機械翻訳】

, , , , , , , , ,
, , , 【Automatic Indexing@JST】

人工知能

, , , ,

前のページに戻る