抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
エージェントの行動決定を各時刻における目的関数の最小化問題に帰着させ,方策勾配法によって行動学習を行うことを考える。学習によって得られる方策に関する知識は環境に依存するものとしないものがあり,後者は別の環境下でも再利用でき,前者は動作特性を予め測定しておくことで学習を効率化できる。本論文では,ある状態でエージェントの行動を決定する方策をボルツマン型の確率分布関数で定義し,その目的関数に動作特性パラメータと行動知識パラメータを分離して表現し,報酬の期待値が極大になるように学習する方法を検討した。本方法の妥当性を検証するためにRoboCup小型リーグ向け移動型ロボット「オムニRoboE2007」の直進走行タスクを例に,ロボットのゴールからの距離及びスタートとゴールを結ぶ直線との距離を足し合わせたポテンシャル関数を行動知識パラメータとして用いた。本ロボットの走行特性を測定したところ,進行方向が0度や180度以外の場合にズレが生じて軌道が変形したが,ポテンシャル関数を行動知識とすることで直進性を改善できることが確かめられた。