抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
未知環境においてロボットに行動を獲得させる手法として,強化学習が注目されている。強化学習を多種多様なセンサ類を有するロボットに適用する場合,センサ情報から直接状態を表現すると状態空間が連続となり,制御規則の探索に要する時間が大きくなるという問題が発生する。この問題へのアプローチとして,関数近似を用いる方法が提案されていることを踏まえて,本稿では,関数近似手法として,多変量回帰手法の一種であるLWPLS(Locally Weighted Partial Least Square:局所重み付き部分最小二乗法)を用いて価値関数を表現し,これを強化学習に組み込んだ新しいアルゴリズムを提案した。具体的には,強化学習,関数近似,学習アルゴリズムについて説明し,学習問題として,移動ロボットのナビゲーション問題を取り上げ,シミュレーション実験によって,1)状態を離散化した場合との比較,2)各パラメータに対する学習性能の比較,3)学習性能の改善,等について報告した。