モデル誤特定による観測からのロバストな学習【JST・京大機械翻訳】

Viano Luca; Huang Yu-Ting; Kamalaruban Parameswaran; Innes Craig; Ramamoorthy Subramanian; Weller Adrian

プレプリント

J-GLOBAL ID：202202203446052953 整理番号：22P0288615

モデル誤特定による観測からのロバストな学習【JST・京大機械翻訳】

Robust Learning from Observation with Model Misspecification

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (6件)： , , , , ,
資料名：
発行年： 2022年02月12日プレプリントサーバーでの情報更新日： 2022年02月15日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

イミテーション学習(IL)は,報酬機能を特定するとき,ロボットシステムにおける訓練政策のための一般的なパラダイムである。しかしながら,ILアルゴリズムの成功にもかかわらず,それらは,専門家の実証が,新しいイミットポリシーが学習される同じドメインから来る必要のある,いくらか非現実的な要求を課す。(i)実際の環境からの状態のみの専門家の実証が学習者に与えられ,(ii)模倣学習者が実際の環境からわずかに異なるシミュレーション(訓練)環境で訓練され,(iii)学習者が与えられた実証のバッチを超えて訓練段階で実際の環境にアクセスしないという,実用的な設定を考察した。多くの現在のIL法(例えば,生成敵対的模倣学習とその状態だけのバリアント)は,上記の設定の下で最適なエキスパート行動を模倣することができなかった。ロバスト強化学習(RL)文献と最近の敵対的模倣アプローチに関する建築物からの洞察をレバレッジすることによって,著者らは,微調整なしで実際の環境に効果的に移転できるポリシーを学習するためのロバストILアルゴリズムを提案した。さらに,連続制御ベンチマークを経験的に実証し,提案手法は,実際の環境におけるゼロショット転送性能および異なる試験条件下でのロバスト性能に関して,最先端の状態のみのIL法よりも性能が優れていることを示した。【JST・京大機械翻訳】

, , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

CAI , 人工知能

, , ,

前のページに戻る