抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
自律探査には多くの重要な応用がある。しかし,古典的情報利得ベースまたはフロンティアベースの探索は,ロボット電流状態に依存し,将来の状態の価値を予測する能力がなく,従って,非効率な探査決定につながる。本論文では,実世界の挑戦的な環境におけるロボット探索のためのガイダンスを提供するために,状態値関数によって測定される「良い」状態がどのように,どうかを学習する方法を提示する。ロボット探査(OPERE)のためのオフポリシー評価(OPE)問題として著者らの研究を定式化した。それは,実世界データに関するオフラインモンテカルロ訓練から成り,訓練値推定器を最適化するために時間差(TD)オンライン適応を実行する。また,センサ情報カバレッジに基づく固有報酬関数を設計し,ロボットがスパース外因性報酬でより多くの情報を得ることを可能にした。結果は,著者らの方法がロボット探査をよりよく誘導するために,ロボットが将来の状態の価値を予測することができることを示した。提案アルゴリズムは最先端技術と比較してより良い予測と探査性能を達成した。知る限りでは,本研究は,挑戦的な地下と都市環境におけるロボット探査のための実世界データセットに関する価値関数予測を初めて示した。より多くの詳細とデモビデオをhttps://jeffreyyh.github.io/opere/で見つけることができる。【JST・京大機械翻訳】