プレプリント
J-GLOBAL ID:202202210210729231   整理番号:22P0277262

人間のフィードバックを用いた3D環境における安全な深いRL【JST・京大機械翻訳】

Safe Deep RL in 3D Environments using Human Feedback
著者 (6件):
資料名:
発行年: 2022年01月20日  プレプリントサーバーでの情報更新日: 2022年01月21日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
エージェントは訓練と展開の両方で不安全行動を避けるべきである。これは典型的にはシミュレータと不安全挙動の手続き仕様を必要とする。残念なことに,シミュレータは必ずしも利用可能ではなく,手続き的に制約を指定することは,多くの実世界タスクに対して困難または不可能である。最近導入された技術,ReQueSTは,安全な人間軌道から環境の神経シミュレータを学習することにより,この問題を解決し,次に学習シミュレータを用いて,人間のフィードバックから報酬モデルを効率的に学習する。しかし,本アプローチが実際の人間から得たフィードバックを有する複雑な3D環境において実現可能かどうかは未知であり,十分なピクセルベースの神経シミュレータ品質が達成でき,また,人間のデータ要求が量と品質の両方に関して実行可能であるかどうかは,まだ知られていない。本論文では,人間契約者から完全にデータを用いて3D第一人物収集タスクを実行するためのエージェントを訓練するために,ReQueSTを用いて,この質問に答えた。その結果,得られたエージェントは,標準強化学習と比較して,不安全挙動において1桁の減少を示した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
人工知能  ,  人間機械系 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る