抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
将棋はMinMax探索で必勝法を求められるが,コンピュータ将棋プログラムBonanzaは形成判断のための評価関数を熟練者の棋譜を教師とした機械学習によって調整して成功した。本論文では,棋譜の指手をプレイ後の局面の評価値が最大であるように評価関数を調整する直感で形成を見分ける学習手法,及び探索を導入して最善応手手順を加味した指手の比較を行う学習手法を解説した。目的関数や損失関数を最小化するようにパラメータを調整するには勾配を用いると効率的に探索できるが,パラメータ更新時の更新幅や過学習の防止に関する対策が必要なことを説明した。前述した評価関数の学習手法ではプロ棋士の棋譜を教師とするが,棋譜の質の違いが学習に与える影響を調べるために,1)プロ棋士の棋譜,2)アマチュアの棋譜,3)コンピュータ同士の棋譜を用いてGPS将棋を題材とする実験を行った。その結果,学習の進行に応じて良いパラメータが得られ,それを用いたプログラムと固定の相手との対局での勝率は1)が2)を有意に上回った。すなわち,現状では1)を用いる重要性が示唆されるが,3)を用いた評価関数も比較的良い勝率が得られたので,将来は自分の棋譜を用いた強化学習の実現も期待されることを論じた。