抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
エージェントは訓練と展開の両方で不安全行動を避けるべきである。これは典型的にはシミュレータと不安全挙動の手続き仕様を必要とする。残念なことに,シミュレータは必ずしも利用可能ではなく,手続き的に制約を指定することは,多くの実世界タスクに対して困難または不可能である。最近導入された技術,ReQueSTは,安全な人間軌道から環境の神経シミュレータを学習することにより,この問題を解決し,次に学習シミュレータを用いて,人間のフィードバックから報酬モデルを効率的に学習する。しかし,本アプローチが実際の人間から得たフィードバックを有する複雑な3D環境において実現可能かどうかは未知であり,十分なピクセルベースの神経シミュレータ品質が達成でき,また,人間のデータ要求が量と品質の両方に関して実行可能であるかどうかは,まだ知られていない。本論文では,人間契約者から完全にデータを用いて3D第一人物収集タスクを実行するためのエージェントを訓練するために,ReQueSTを用いて,この質問に答えた。その結果,得られたエージェントは,標準強化学習と比較して,不安全挙動において1桁の減少を示した。【JST・京大機械翻訳】