抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ソフトマックス選択は強化学習における行動選択のための最も一般的な方法の一つである。種々の最近提案された方法は,完全なパラメータ調整により,一層効果的である可能性があるが,多くのパラメータの調整を必要とする複雑な方法を実現することは困難である。ソフトマックス選択はその実装と調整のコスト節減を再検討,考慮に値するである。実際では,この方法を環境の適切にたった一つのパラメータを実際に十分に効果がある。本論文の目的は,良好なパラメータの帯域幅を拡張するためのこの方法の変数設定を改善し,それによる実行とパラメータ調整のコストを削減することである。これを達成するために,ソフトマックス選択のピーク帯域幅を拡張するためのマルコフ決定過程の漸近等分割性を利用した。エピソードタスクを用いて,著者らは,この環境は帯域幅の拡大に効果的であることを,安定性の点でより良い政策をもたらすことを示した。帯域幅は一連の統計的検定で評価した。Copyright 2017 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】