AlphaGoの技術と対戦

伊藤毅志; 松原仁

文献

J-GLOBAL ID：201602258475480337 整理番号：16A1009365

AlphaGoの技術と対戦

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=16A1009365&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=16A1009365&from=J-GLOBAL&jstjournalNo=X0330A") }}

著者 (2件)： ,
資料名：
巻： 31 号： 3 ページ： 441-443 発行年： 2016年05月01日
JST資料番号： X0330A ISSN： 2188-2266 資料種別：逐次刊行物 (A)
記事区分：解説発行国：日本 (JPN) 言語：日本語 (JA)

囲碁は二人零和有限完全情報確定ゲームの中でも突出して複雑なゲームであり,2006年にモンテカルロ木探索(MCTS)が現れるまでコンピュータ囲碁はアマチュア初段でも厳しかった。本論文では,探索部分にはMCTSを利用し,ディープラーニングと強化学習を組み合わせた手法に基づくコンピュータ囲碁プログラムAlphaGoについて解説した。AlphaGoは,1)13層のDeep Convolutional Neural Network(SL Policy Network)を用いた教師あり学習に基づく次の一手予測器の作成,2)自己対戦によるゲームの勝利を報酬とする強化学習によるRL Policy Networkの学習,3)途中までSL Policy Networkで自己対局させて一手ランダムに打った後,RL Policy Networkに打たせることで局面の勝率を計算するValue Network(評価関数)の形成に基づく。3)の学習には50個以上のGPU(Graphical Processing Unit)を用い,プロ棋士との対戦では1000個以上のCPUと176個のGPUを費やすことで4勝1敗で勝利した。一方,探索の過程で乱数を使うMCTCの課題は残ったままであり,複雑で正確な先読み能力においてプロ棋士に及ばない現状を示した。

, , , , , , , , , , , ,
, ,

趣味娯楽用品 , ゲーム理論 , システム・制御理論一般 , 人工知能 , ニューロコンピュータ

引用文献 (9件)：

[Buro 97] Buro, M.: The othello match of the year: Takeshi Murakami vs. Logistello, ICCA J., Vol. 20, No. 3, pp. 189-193 (1997)
[Clark 14] Clark, C. and Storkey, A.: Teaching Deep Convolutional Neural Networks to Play Go, arXiv:1412.3409 (2014)
[伊藤13]伊藤毅志ほか:ミニ特集「コンピュータ囲碁の最前線~九路盤囲碁のイベントから~」,情報処理,Vol.54,No.3,pp.232-250(2013)
[Maddison 14] Maddison, C. J., Huang, A., Sutskever, I. and Silver, D.: Move Evaluation in Go Using Deep Convolutional Neural Networks, arXiv:1412.6564 (2014)
[松原15]松原仁:コンピュータ将棋プロジェクトの終了宣言,情報処理,Vol. 56,No.11, pp.1054-1055(2015)

前のページに戻る