抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ここ数年来、強化学習はゲーム、ロボット制御などの序列決定領域で巨大な成功を得ているが、大量の実際問題の中では信号が非常にスパースであり、知能体は環境との対話から最適の策略を学習することが難しいため、この問題はスパースインセンティブ問題と呼ばれている。スパースインセンティブ問題の研究は,強化学習の実際の応用と着地を促進でき,強化学習理論研究において重要な意味を持つ。本文では、スパースインセンティブ問題の研究現状について調査し、外部誘導情報を手がかりとして、それぞれ、インセンティブモデリング、模倣学習、カリキュラム学習、事後経験の再生、好奇心駆動、階層強化学習などの方法を紹介した。本論文では、スパースインセンティブ環境FetchReach上で以上の6種類の方法の代表的なアルゴリズムを実現し、実験検証と比較分析を行った。外部誘導情報を用いたアルゴリズムは,外部誘導情報のないアルゴリズムよりも平均的に表現されるが,後者がデータへの依存性が低く,2つの方法が重要な研究意味を持つ。最後に,スパースインセンティブアルゴリズムの研究を要約し,展望した。Data from Wanfang. Translated by JST.【JST・京大機械翻訳】