抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
逆強化学習はエキスパートの行動を基に,エキスパートを正しいものとして模倣するような行動を獲得するための報酬を推定する。そのため環境変化などによりエキスパートが誤った行動をしている場合に,新たな環境に適したエキスパートを設定する必要がある。解決策の一つとしてエキスパートの誤った部分の学習を避けることが考えられ,その場合エキスパートの行動系列を分割して学習する必要がある。そこで本研究では,エキスパートの一連の行動系列を分割して学習する逆強化学習を提案する。迷路問題を例題として,提案手法により報酬関数の獲得が可能であることを確認した。また獲得した報酬関数による強化学習では,学習速度に関して従来手法と同等の性能を有し,最終的に獲得した方策が報酬和が最大かつ最短ステップ数の行動経路を取るものであることが確認できた。(著者抄録)