抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
強化学習に用いる方策こう配法において,方策に関する知識を環境ダイナミクスと行動価値とに分離する手法を提案した。方策こう配法による強化学習において,方策に関する知識には,状態の確率的遷移を表す情報(環境ダイナミクス)と,環境ダイナミクスに依存しないでタスクに応じた有効な行動決定をもたらす普遍的情報(行動知識)とがある。先行研究において,これらを分離して扱う手法を提案したが,行動知識を表現するためのパラメータの取扱いが,状態価値に相当するものに限られていた。本論文では,方策を各時刻における目的関数の最小化問題に帰着させ,その目的関数を,行動価値に相当する問題解決のための行動知識と状態遷移確率に相当する環境ダイナミクスとに分離した。提案手法を追跡問題に適用した実験により,提案手法の有効性を確認した。