わりとよく使われるタイプは動かしてガッテン!人工知能アルゴリズム探検隊  第15回  対戦ゲーム/自動運転AIの基本アルゴリズム「Qラーニング」

牧野浩二

文献

J-GLOBAL ID：201702255925531484 整理番号：17A1811753

わりとよく使われるタイプは動かしてガッテン!人工知能アルゴリズム探検隊第15回対戦ゲーム/自動運転AIの基本アルゴリズム「Qラーニング」

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=17A1811753&from=J-GLOBAL&jstjournalNo=L0339A") }}

著者 (1件)：
資料名：
巻： 44 号： 1 ページ： 114-123 発行年： 2018年01月01日
JST資料番号： L0339A ISSN： 0387-9569 資料種別：逐次刊行物 (A)
記事区分：解説発行国：日本 (JPN) 言語：日本語 (JA)

標題連載論文では学習しながら進化するアルゴリズムとして山登り法,及び遺伝的アルゴリズムを解説してきた。本論文では,各状態での行動に対する評価(Q値)が決まっており,良かった行動だけに報酬が与えられて前記行動が選ばれるようにQ値を更新するQラーニングについて述べた。まず,2つのタイヤにモータがついたライン・トレース・ロボットが前方2か所のセンサを用い,床の白黒を判別しながら境界線上を走るようにQラーニングを実装した。ロボットの取り得る状態は白黒の4種類の組合せであり,取り得る行動は前進,左右回転,左右旋回である。また,ロボットが境界線上にいると報酬が与えられるものとし,報酬に基づいてQ値の更新を行うシミュレーション・プログラムを作成した。他の手法と比較するために白黒の境界をなるべく速く走ると高得点になるように,センサの状態が(白,黒)または(黒,白)ならば左右タイヤの平均速度の絶対値,両方とも白または黒ならば前記絶対値に0.2を掛けた値を得点とした。その結果,山登り法で100回以上のシミュレーションが必要であったのに対し,1ステップ動くたびに学習するQラーニングでは10回のシミュレーションでライン・トレースを学習できた。さらに,報酬のつけ方を変えるだけで反対方向へ進むような動きを学習できることを示した。

, , , , , , , , , , ,
, , ,

人工知能 , 趣味娯楽用品 , 運転者 , ロボットの運動・制御

, , , , , ,

前のページに戻る

わりとよく使われるタイプは動かしてガッテン!人工知能アルゴリズム探検隊 第15回 対戦ゲーム/自動運転AIの基本アルゴリズム「Qラーニング」

わりとよく使われるタイプは動かしてガッテン!人工知能アルゴリズム探検隊第15回対戦ゲーム/自動運転AIの基本アルゴリズム「Qラーニング」