GAILによる任意のエージェントフォーメーション獲得

木村祥; 荒井幸代

文献

J-GLOBAL ID：201902261797074783 整理番号：19A0148065

GAILによる任意のエージェントフォーメーション獲得

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=19A0148065&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=19A0148065&from=J-GLOBAL&jstjournalNo=F0428D") }}

著者 (2件)： ,
資料名：
巻： 2018 ページ： ROMBUNNO.GS0206 発行年： 2018年11月25日
JST資料番号： F0428D 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

マルチエージェント強化学習を用いた協調行動の学習過程では,多様な協調行動(フォーメーション)が観察されるが,最終的には一つの解に収束する。収束後の解は,学習に用いた初期乱数や行動選択器に依存するものの,累積期待報酬が最大となる解である。一方で,学習途中で観察される多様な解には興味深い挙動を示す場合も多く,これらの解に収束させるための方法への要請は大きい。近年,解を所与として,その解を生成するための報酬関数を求める方法として逆強化学習が注目されているが,報酬関数推定と方策最適化の二つの最適化を行う必要があるために,計算コストが大きく,状態空間が高次元である環境への適用が困難であった。この問題に対して近年,報酬関数の学習と方策の学習を一段階で最適化可能にし,かつ高次元環境を扱えるGenerative AdversarialImitation Learning(GAIL)が提案されている。本稿では,エキスパートの状態遷移を模倣するGAILを用いて,これらの解から任意の解を学習する方法を提案する。計算機実験では,Real Time Strategyゲームとして知られるStarCraft IIの追跡問題において,任意の協調行動を獲得できることを確認し,提案手法の有効性を示す。(著者抄録)

, , , , ,
, , , , ,

人工知能

前のページに戻る