「コンピュータ将棋の技術」〔第5回〕コンピュータ将棋の評価関数と棋譜を教師とした機械学習

金子知適

文献

J-GLOBAL ID：201202273045308239 整理番号：12A0119923

「コンピュータ将棋の技術」〔第5回〕コンピュータ将棋の評価関数と棋譜を教師とした機械学習

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=12A0119923&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=12A0119923&from=J-GLOBAL&jstjournalNo=X0330A") }}

著者 (1件)：
資料名：
巻： 27 号： 1 ページ： 75-82 発行年： 2012年01月01日
JST資料番号： X0330A ISSN： 0912-8085 資料種別：逐次刊行物 (A)
記事区分：解説発行国：日本 (JPN) 言語：日本語 (JA)

将棋はMinMax探索で必勝法を求められるが,コンピュータ将棋プログラムBonanzaは形成判断のための評価関数を熟練者の棋譜を教師とした機械学習によって調整して成功した。本論文では,棋譜の指手をプレイ後の局面の評価値が最大であるように評価関数を調整する直感で形成を見分ける学習手法,及び探索を導入して最善応手手順を加味した指手の比較を行う学習手法を解説した。目的関数や損失関数を最小化するようにパラメータを調整するには勾配を用いると効率的に探索できるが,パラメータ更新時の更新幅や過学習の防止に関する対策が必要なことを説明した。前述した評価関数の学習手法ではプロ棋士の棋譜を教師とするが,棋譜の質の違いが学習に与える影響を調べるために,1)プロ棋士の棋譜,2)アマチュアの棋譜,3)コンピュータ同士の棋譜を用いてGPS将棋を題材とする実験を行った。その結果,学習の進行に応じて良いパラメータが得られ,それを用いたプログラムと固定の相手との対局での勝率は1)が2)を有意に上回った。すなわち,現状では1)を用いる重要性が示唆されるが,3)を用いた評価関数も比較的良い勝率が得られたので,将来は自分の棋譜を用いた強化学習の実現も期待されることを論じた。

, , , , , , , , , , , , ,
,

趣味娯楽用品 , ゲーム理論 , 人工知能

引用文献 (25件)：

ANANTHARAMAN, T. Evaluation tuning for computer chess : Linear discriminant methods. ICCA Journal. 1997, 20, 4, 224-242
BAXTER, J. Learning to play chess using temporal-differences. Machine Learning. 2000, 40, 3, 242-263
BEAL, D. F. Temporal difference learning applied to game playing and the results of application to shogi. Theoretical Computer Science. 2001, 252, 1-2, 105-119
BURO, M. Improving heuristic mini-max search by supervised learning. Artificial Intelligence. 2002, 134, 1-2, 85-99
CAMPBELL, M. Deep Blue. Artificial Intelligence. 2002, 134, 1-2, 57-83

, , , ,

前のページに戻る