抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
マルチエージェント強化学習を用いた協調行動の学習過程では,多様な協調行動(フォーメーション)が観察されるが,最終的には一つの解に収束する。収束後の解は,学習に用いた初期乱数や行動選択器に依存するものの,累積期待報酬が最大となる解である。一方で,学習途中で観察される多様な解には興味深い挙動を示す場合も多く,これらの解に収束させるための方法への要請は大きい。近年,解を所与として,その解を生成するための報酬関数を求める方法として逆強化学習が注目されているが,報酬関数推定と方策最適化の二つの最適化を行う必要があるために,計算コストが大きく,状態空間が高次元である環境への適用が困難であった。この問題に対して近年,報酬関数の学習と方策の学習を一段階で最適化可能にし,かつ高次元環境を扱えるGenerative AdversarialImitation Learning(GAIL)が提案されている。本稿では,エキスパートの状態遷移を模倣するGAILを用いて,これらの解から任意の解を学習する方法を提案する。計算機実験では,Real Time Strategyゲームとして知られるStarCraft IIの追跡問題において,任意の協調行動を獲得できることを確認し,提案手法の有効性を示す。(著者抄録)