抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
近年,ボードゲームだけでなくビデオゲームにおいて,自己対戦を使用することで戦略の獲得に成功している。本研究では,一人用と対戦用の落ち物パズルゲーム『ぷよぷよ』において,自己対戦と深層強化学習を用いて,戦略を学習させた研究の報告をする。自己対戦とは,エージェント同士が対戦してログを生成し,そのログを用いて学習する手法である。本実験では,Unityを使用してパズルゲームの環境を作成した。そして,強化学習ライブラリML-Agentsと深層強化学習アルゴリズムSACを使用して学習を行った。一人用ぷよぷよでは累積報酬と平均最大連鎖数を用いて評価を行った。一時的に性能は上昇したものの,最終的には少し悪くなってしまった。対戦用ぷよぷよではイロレーティングと平均最大連鎖数を用いて評価を行った。イロレーティングは初期値の1200から3100まで上昇し,最後まで上昇傾向にあった。今後の学習によってさらに強くなることが考えられる。(著者抄録)