抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
囲碁は二人零和有限完全情報確定ゲームの中でも突出して複雑なゲームであり,2006年にモンテカルロ木探索(MCTS)が現れるまでコンピュータ囲碁はアマチュア初段でも厳しかった。本論文では,探索部分にはMCTSを利用し,ディープラーニングと強化学習を組み合わせた手法に基づくコンピュータ囲碁プログラムAlphaGoについて解説した。AlphaGoは,1)13層のDeep Convolutional Neural Network(SL Policy Network)を用いた教師あり学習に基づく次の一手予測器の作成,2)自己対戦によるゲームの勝利を報酬とする強化学習によるRL Policy Networkの学習,3)途中までSL Policy Networkで自己対局させて一手ランダムに打った後,RL Policy Networkに打たせることで局面の勝率を計算するValue Network(評価関数)の形成に基づく。3)の学習には50個以上のGPU(Graphical Processing Unit)を用い,プロ棋士との対戦では1000個以上のCPUと176個のGPUを費やすことで4勝1敗で勝利した。一方,探索の過程で乱数を使うMCTCの課題は残ったままであり,複雑で正確な先読み能力においてプロ棋士に及ばない現状を示した。