リワードマシンを用いる強化学習手法の計算性能とタスク難易度の関係

渡邊隆二; 田中剛平

複写
関連リンク
出版者サイト

この文献と内容が近い文献

この文献と内容が近い研究者

この文献と内容が近い特許

この文献と内容が近い研究課題

この文献の著者と推定される研究者

この文献を引用している文献

この文献を引用している特許

文献

J-GLOBAL ID：202202215168992131 整理番号：22A1339930

リワードマシンを用いる強化学習手法の計算性能とタスク難易度の関係

Relationship between Computational Performance and Task Difficulty of Reinforcement Learning Methods Using Reward Machines

クリップ

著者 (2件)： ,
資料名：
巻： 121 号： 444(NLP2021 126-152) ページ： 77-82 (WEB ONLY) 発行年： 2022年03月21日
JST資料番号： U2030A ISSN： 2432-6380 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

強化学習では報酬が即時的に決まらないタスクにおいては学習中に過去の状態遷移の履歴を考慮することが必要である.リワードマシンはタスクを分割しそれぞれの過程における報酬関数を学習する手法で,それを用いた強化学習手法はQ学習などの従来の手法を超える速い学習速度と最適解への収束の保証を与えることが示されている.本報告では,グリッド状の環境で報酬獲得までのシンボル数や報酬関数の構造,環境の設定が異なる複数のタスクでの数値実験を行い,エピソードごとの報酬獲得率の変化を評価する.また,実験結果をもとにタスク難易度が計算性能に与える影響を論じる.(著者抄録)

, , , , , , , , , ,
, ,

人工知能

引用文献 (17件)：

R.S. Sutton and A.G. Barto, Reinforcement learning: An introduction, MIT press, 2018.
A. Camacho, O. Chen, S. Sanner, and S.A. McIlraith, “Decision-making with non-markovian rewards: From ltl to automata-based reward shaping,” Proceedings of the Multi-disciplinary Conference on Reinforcement Learning and Decision Making (RLDM), pp.279-283, 2017.
F. Bacchus, C. Boutilier, and A. Grove, “Rewarding behaviors,” Proceedings of the Thirteenth National Conference on Artificial Intelligence - Volume 2, p.1160-1167, AAAI’96, AAAI Press, 1996.
R. Brafman, G. De Giacomo, and F. Patrizi, “LTLf/LDLf Non-Markovian Rewards,” Proceedings of the AAAI Conference on Artificial Intelligence, vol.32, pp.1771-1778, 2018.
C.J.C.H. Watkins, “Learning from delayed rewards,” 1989.

, , , ,

前のページに戻る


	フリーワード	※以下の同義語を加えると、ヒット件数を増やすことができます。




		～