時間制限付き半順序作業における協調行動学習のための漸進的報酬設計の提案

小國祥寛; 宮下裕貴; 菅原俊治

文献

J-GLOBAL ID：202202239611355946 整理番号：22A0934545

時間制限付き半順序作業における協調行動学習のための漸進的報酬設計の提案

著者 (3件)： , ,
資料名：
巻： 2022 号： ICS-205 ページ： Vol.2022-ICS-205,No.10,1-8 (WEB ONLY) 発行年： 2022年02月14日
JST資料番号： U0451A 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

本稿では,異なる能力と役割を持つ複数のエージェントが,決められた順序で作業することで完了するタスクにおいて,自分の作業の効率化の学習と自分の前後に作業するエージェントとの連携行動の学習を両立させる手法を提案する.近年,深層強化学習の研究が活発に行われているが,エージェント間の協調行動の学習については未だ十分とは言えない.特にエージェントが独立した深層ネットワークを持つ分散的なマルチエージェント強化学習(MADRL)では,個々の作業に与える報酬の体系が協調行動に与える影響については不明な部分も多い.本稿で対象とする順序付きの作業では,特に初めのエージェントからは,かなり遅れてタスクが完了し,すでに他のタスクの作業中となることも多い.そのため,たとえば,自分の担当部分の完了時に報酬を与えるとタスクの完了という本来の目的と異なった報酬体系となり,自己中心の作業に特化し,他の行動を考慮しなくなる.一方で,全体の作業が終わったときにのみ報酬を与えると,自分の作業の学習が進まないばかりではなく,その後のエージェントの学習機会も失う.このような課題に対し,本提案では,報酬を2分割し,それを学習の遂行とともに変化させ,自分の作業の効率と協調行動をともに実現し,最終的には本来の目的と合致するように関連するすべての作業が完了したときにのみ報酬を与えるものとする.実験により,報酬比と収集した行動を比較し,提案手法が自己の作業と協調・連携行動のバランスのとれた行動学習を実現することを示す.(著者抄録)

, , , , , , ,

ロボットの運動・制御

引用文献 (13件)：

Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou, I., Wierstra, D. and Riedmiller, M.: Playing atari with deep reinforcement learning, arXiv preprint arXiv:1312.5602 (2013).
Vinyals, O., Babuschkin, I., Czarnecki, W. M., Mathieu, M., Dudzik, A., Chung, J., Choi, D. H., Powell, R., Ewalds, T., Georgiev, P. et al.: Grandmaster level in StarCraft II using multi-agent reinforcement learning, Nature, Vol. 575, No. 7782, pp. 350-354 (2019).
Yu-Han Chang, Tracey Ho, L. P. K.: All learning is local: Multi-agent learning in global reward games, Proceedings of Neural Information Processing Systems (NIPS-03) (2003).
Tampuu, A., Matiisen, T., Kodelja, D., Kuzovkin, I., Korjus, K., Aru, J., Aru, J. and Vicente, R.: Multiagent cooperation and competition with deep reinforcement learning, PloS one, Vol. 12, No. 4, p. e0172395 (2017).
Du, Y., Han, L., Fang, M., Liu, J., Dai, T. and Tao, D.: Liir: Learning individual intrinsic reward in multi-agent reinforcement learning (2019).

, , , , , ,

前のページに戻る


	フリーワード	※以下の同義語を加えると、ヒット件数を増やすことができます。




		～