『ぷよぷよ』における深層強化学習による自己対戦の適応

福地昂大; 三宅陽一郎

文献

J-GLOBAL ID：202302242305756247 整理番号：23A3109000

『ぷよぷよ』における深層強化学習による自己対戦の適応

Adaptation of Self-Play with Deep Reinforcement Learning in Puyo-Puyo

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=23A3109000&from=J-GLOBAL&jstjournalNo=U1701A") }}

著者 (2件)： ,
資料名：
巻： 37th ページ： ROMBUNNO.2M5-GS-10-01(J-STAGE) 発行年： 2023年
JST資料番号： U1701A ISSN： 2758-7347 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

近年,ボードゲームだけでなくビデオゲームにおいて,自己対戦を使用することで戦略の獲得に成功している。本研究では,一人用と対戦用の落ち物パズルゲーム『ぷよぷよ』において,自己対戦と深層強化学習を用いて,戦略を学習させた研究の報告をする。自己対戦とは,エージェント同士が対戦してログを生成し,そのログを用いて学習する手法である。本実験では,Unityを使用してパズルゲームの環境を作成した。そして,強化学習ライブラリML-Agentsと深層強化学習アルゴリズムSACを使用して学習を行った。一人用ぷよぷよでは累積報酬と平均最大連鎖数を用いて評価を行った。一時的に性能は上昇したものの,最終的には少し悪くなってしまった。対戦用ぷよぷよではイロレーティングと平均最大連鎖数を用いて評価を行った。イロレーティングは初期値の1200から3100まで上昇し,最後まで上昇傾向にあった。今後の学習によってさらに強くなることが考えられる。(著者抄録)

, , , , , , , , , ,

ゲーム理論 , テレビジョン応用 , 人工知能

, , ,

前のページに戻る