抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
強化学習中の3D回転を表現するための新しい政策パラメタリゼーションを提案した。連続制御強化学習文献において,多くの確率的政策パラメタリゼーションはGaussである。Gauss政策パラメタリゼーションの普遍的適用は,全ての環境に対して必ずしも望ましいとは限らない。このような事例は,特に,完全6D姿勢出力の一部として,分離,あるいは,並進と結合した3D回転出力の予測を含むタスクである。提案したBinghamポリシーパラメータ化(BPP)は,Bingham分布をモデル化し,一連の強化学習タスクにおけるGaussポリシーパラメータ化に対するより良い回転(四級化)予測を可能にする。回転Wahba問題タスクに関するBPPと,RLBenchからの視覚ベースの次のベスト姿勢ロボットマニピュレーションタスクのセットを評価した。本論文は,Gaussを常に仮定するよりも,特定の環境に適した他の政策パラメタリゼーションの開発へのより多くの研究を奨励することを期待する。【JST・京大機械翻訳】