抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
標題連載論文では学習しながら進化するアルゴリズムとして山登り法,及び遺伝的アルゴリズムを解説してきた。本論文では,各状態での行動に対する評価(Q値)が決まっており,良かった行動だけに報酬が与えられて前記行動が選ばれるようにQ値を更新するQラーニングについて述べた。まず,2つのタイヤにモータがついたライン・トレース・ロボットが前方2か所のセンサを用い,床の白黒を判別しながら境界線上を走るようにQラーニングを実装した。ロボットの取り得る状態は白黒の4種類の組合せであり,取り得る行動は前進,左右回転,左右旋回である。また,ロボットが境界線上にいると報酬が与えられるものとし,報酬に基づいてQ値の更新を行うシミュレーション・プログラムを作成した。他の手法と比較するために白黒の境界をなるべく速く走ると高得点になるように,センサの状態が(白,黒)または(黒,白)ならば左右タイヤの平均速度の絶対値,両方とも白または黒ならば前記絶対値に0.2を掛けた値を得点とした。その結果,山登り法で100回以上のシミュレーションが必要であったのに対し,1ステップ動くたびに学習するQラーニングでは10回のシミュレーションでライン・トレースを学習できた。さらに,報酬のつけ方を変えるだけで反対方向へ進むような動きを学習できることを示した。