学習済みモデルを用いた計画による,アタリ,囲碁,チェス,将棋の習得

SCHRITTWIESER Julian; ANTONOGLOU Ioannis; HUBERT Thomas; SIMONYAN Karen; SIFRE Laurent; SCHMITT Simon; GUEZ Arthur; LOCKHART Edward; HASSABIS Demis; GRAEPEL Thore; LILLICRAP Timothy; SILVER David; ANTONOGLOU Ioannis; GRAEPEL Thore; SILVER David

文献

J-GLOBAL ID：202102221183272769 整理番号：21A0059404

学習済みモデルを用いた計画による,アタリ,囲碁,チェス,将棋の習得

Mastering Atari, Go, chess and shogi by planning with a learned model

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=21A0059404&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=21A0059404&from=J-GLOBAL&jstjournalNo=D0193B") }}

著者 (15件)： , , , , , , , , , , , , , ,
資料名：
巻： 588 号： 7839 ページ： 604-609 発行年： 2020年12月24日
JST資料番号： D0193B ISSN： 0028-0836 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：イギリス (GBR) 言語：英語 (EN)

計画能力を有するエージェントを構築することは,長きにわたり人工知能の探究における主要な課題の1つであった。ツリーベースの計画法は,チェスや囲碁などの,完璧なシミュレーターを利用できる難易度の高い領域において非常に大きな成功を収めてきた。しかし実世界の問題では,環境を支配する力学が複雑で未知であることが多い。今回我々は,ツリーベースの探索と学習済みモデルを組み合わせることによって,難易度が高く視覚的に複雑なさまざまな領域において,背景にある力学の知識を用いずに超人的性能を実現する,MuZeroアルゴリズムを提示する。MuZeroアルゴリズムは,計画に関連する予測,すなわち行動選択の方策,価値関数,報酬を生成する反復可能なモデルを学習する。アタリの57本のさまざまなゲーム(人工知能技術を検証するための標準的なビデオゲーム環境で,モデルに基づく計画手法が苦労してきた経緯がある)で評価したところ,MuZeroアルゴリズムは最高水準の性能を達成した。高性能の計画を行う標準的な環境である囲碁,チェス,将棋での評価では,MuZeroアルゴリズムは,ゲーム力学の知識を用いることなく,ゲームのルールを与えられたAlphaZeroアルゴリズムの超人的性能に匹敵する性能を示した。Copyright Nature Japan KK 2021

, , , , , , , ,
, , , , 【Automatic Indexing@JST】

中枢神経系 , 人工知能

, , , , , ,

前のページに戻る