f-IRL:状態限界マッチングによる逆強化学習【JST・京大機械翻訳】

Ni Tianwei; Sikchi Harshit; Wang Yufei; Gupta Tejus; Lee Lisa; Eysenbach Benjamin

プレプリント

J-GLOBAL ID：202202208701032610 整理番号：21P0060124

f-IRL:状態限界マッチングによる逆強化学習【JST・京大機械翻訳】

f-IRL: Inverse Reinforcement Learning via State Marginal Matching

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (6件)： , , , , ,
資料名：
発行年： 2020年11月09日プレプリントサーバーでの情報更新日： 2020年12月29日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

模倣学習は,行動を直接プログラムし,最適制御のためのコストを指定するのが困難なロボットタスクに適している。本研究では,報酬関数(および対応ポリシー)を学習する方法を提案し,エキスパート状態密度を整合させた。主な結果は,エージェントとエキスパート状態分布w.r.t.報酬パラメータの間の任意のf-発散の解析的勾配である。導出した勾配に基づいて,勾配降下によりエキスパート密度から静止報酬関数を復元するアルゴリズムf-IRLを示した。f-IRLは,手で設計されたターゲット状態密度から,またはエキスパート観察を通して暗黙的に行動を学習できることを示した。提案手法は,サンプル効率およびIRLベンチマーク上のエキスパート軌跡の必要な数に関して,敵対的模倣学習法より優れている。さらに,回復報酬関数を用いて,下流タスクを迅速に解くことができ,また,ハードから探索タスクへのその有用性を経験的に実証し,また,動力学における変化を横断して行動転送を行うことを示した。【JST・京大機械翻訳】

, , , , ,
, , , , 【Automatic Indexing@JST】

人工知能

, ,

前のページに戻る