文献
J-GLOBAL ID:202202215168992131   整理番号:22A1339930

リワードマシンを用いる強化学習手法の計算性能とタスク難易度の関係

Relationship between Computational Performance and Task Difficulty of Reinforcement Learning Methods Using Reward Machines
著者 (2件):
資料名:
巻: 121  号: 444(NLP2021 126-152)  ページ: 77-82 (WEB ONLY)  発行年: 2022年03月21日 
JST資料番号: U2030A  ISSN: 2432-6380  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
強化学習では報酬が即時的に決まらないタスクにおいては学習中に過去の状態遷移の履歴を考慮することが必要である.リワードマシンはタスクを分割しそれぞれの過程における報酬関数を学習する手法で,それを用いた強化学習手法はQ学習などの従来の手法を超える速い学習速度と最適解への収束の保証を与えることが示されている.本報告では,グリッド状の環境で報酬獲得までのシンボル数や報酬関数の構造,環境の設定が異なる複数のタスクでの数値実験を行い,エピソードごとの報酬獲得率の変化を評価する.また,実験結果をもとにタスク難易度が計算性能に与える影響を論じる.(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
人工知能 
引用文献 (17件):
  • R.S. Sutton and A.G. Barto, Reinforcement learning: An introduction, MIT press, 2018.
  • A. Camacho, O. Chen, S. Sanner, and S.A. McIlraith, “Decision-making with non-markovian rewards: From ltl to automata-based reward shaping,” Proceedings of the Multi-disciplinary Conference on Reinforcement Learning and Decision Making (RLDM), pp.279-283, 2017.
  • F. Bacchus, C. Boutilier, and A. Grove, “Rewarding behaviors,” Proceedings of the Thirteenth National Conference on Artificial Intelligence - Volume 2, p.1160-1167, AAAI’96, AAAI Press, 1996.
  • R. Brafman, G. De Giacomo, and F. Patrizi, “LTLf/LDLf Non-Markovian Rewards,” Proceedings of the AAAI Conference on Artificial Intelligence, vol.32, pp.1771-1778, 2018.
  • C.J.C.H. Watkins, “Learning from delayed rewards,” 1989.
もっと見る
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る