マルチエージェント連携における異なる目標選択による強化学習手法間の比較

UWANO Fumito; TAKADAMA Keiki

文献

J-GLOBAL ID：201702269963006902 整理番号：17A1207218

マルチエージェント連携における異なる目標選択による強化学習手法間の比較

Comparison Between Reinforcement Learning Methods with Differnt Goal Selections in Multi-Agent Cooperation

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=17A1207218&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=17A1207218&from=J-GLOBAL&jstjournalNo=F1398A") }}

著者 (2件)： ,
資料名：
巻： 21 号： 5 ページ： 917-929 発行年： 2017年09月20日
JST資料番号： F1398A ISSN： 1343-0130 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：日本 (JPN) 言語：英語 (EN)

本研究では異なった修正付き強化学習手法を比較する事によって零コミュニケーション,マルチエージェント連携用の重要な因子を扱った。比較用に用いた2つの学習手法をマルチエージェント連携作業用の異なった目標選択に割当てた。最初の手法は利益最小化強化学習(PMRL)と呼ばれる。それはエージェントに最遠目標に如何に到達するかを学習する事を強いて,それから,その目標に一番近いエージェントがその目標に向かう。二番目の手法は従順行動強化学習(YARL)と呼ばれる。それはエージェントにQ-学習プロセスを通して学習する事を強いて,もしエージェントが衝突を持ったならば,目標に一番近いエージェントが次に近い目標に到達ために学習する。2つの手法を比較するために,筆者らは以下の迷路因子を調節する事によって実験を設計した。(1)開始点及び目標の位置。(2)エージェントの個数。(3)迷路のサイズ。エージェント協調作業用の迷路問題上で実施した集中的シミュレーションはもし迷路のサイズ及びエージェントの個数が変化したとしてさえも,2つの手法がエージェントが協調挙動を開示する事を成功裡に可能化する事を明らかにした。PMRLメカニズムが常にエージェントが協調挙動を学習する事を可能化する一方,YARLメカニズムはエージェントに少数の学習反復上で協調挙動を学習させる。零コミュニケーション,マルチエージェント協調において,衝突を持つエージェントのみが互いに協調する事が重要である。(翻訳著者抄録)

, , , , ,
, ,

人工知能 , 計算機システム開発

引用文献 (12件)：

K.-H. Park, Y.-J. Kim, and J.-H. Kim, “Modular Q-learning Based Multi-Agent Cooperation for Robot Soccer,” Robotics and Autonomous System, pp. 3026-3033, 2015.
M. Camara, O. Bonham-Carter, and J. Jumadinova, “A Multi-agent System with Reinforcement Learning Agents for Biomedical Text Mining,” Proc. of the 6th ACM Conf. on Bioinformatics, Computational Biology and Health Informatics, BCB’15, pp. 634-643, NY, USA, ACM, 2015.
H. Iima and Y. Kuroe, “Swarm Reinforcement Learning Methods Improving Certainty of Learning for a Multi-Robot Formation Problem,” CEC, pp. 3026-3033, May 2015.
Y. Ichikawa and K. Takadama, “Designing Internal Reward of Reinforcement Learning Agents in Multi-step Dilemma Problem,” J. Adv. Comput. Intell. Intell. Inform. (JACIII), Vol.17, No.6, pp. 926-931, 2013.
M. Elidrisi, N. Johnson, M. Gini, and J. Crandall, “Fast Adaptive Learning in Repeated Stochastic Games by Game Abstraction,” AAMAS, pp. 1141-1148, May 2014.

, , , ,

前のページに戻る