人間のフィードバックを用いた3D環境における安全な深いRL【JST・京大機械翻訳】

Rahtz Matthew; Varma Vikrant; Kumar Ramana; Kenton Zachary; Legg Shane; Leike Jan

プレプリント

J-GLOBAL ID：202202210210729231 整理番号：22P0277262

人間のフィードバックを用いた3D環境における安全な深いRL【JST・京大機械翻訳】

Safe Deep RL in 3D Environments using Human Feedback

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (6件)： , , , , ,
資料名：
発行年： 2022年01月20日プレプリントサーバーでの情報更新日： 2022年01月21日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

エージェントは訓練と展開の両方で不安全行動を避けるべきである。これは典型的にはシミュレータと不安全挙動の手続き仕様を必要とする。残念なことに,シミュレータは必ずしも利用可能ではなく,手続き的に制約を指定することは,多くの実世界タスクに対して困難または不可能である。最近導入された技術,ReQueSTは,安全な人間軌道から環境の神経シミュレータを学習することにより,この問題を解決し,次に学習シミュレータを用いて,人間のフィードバックから報酬モデルを効率的に学習する。しかし,本アプローチが実際の人間から得たフィードバックを有する複雑な3D環境において実現可能かどうかは未知であり,十分なピクセルベースの神経シミュレータ品質が達成でき,また,人間のデータ要求が量と品質の両方に関して実行可能であるかどうかは,まだ知られていない。本論文では,人間契約者から完全にデータを用いて3D第一人物収集タスクを実行するためのエージェントを訓練するために,ReQueSTを用いて,この質問に答えた。その結果,得られたエージェントは,標準強化学習と比較して,不安全挙動において1桁の減少を示した。【JST・京大機械翻訳】

, , , , , ,

人工知能 , 人間機械系

, , ,

前のページに戻る