文献
J-GLOBAL ID:201702265096197996   整理番号:17A1263026

強化学習におけるソフトマックス行動選択のパラメータの最大帯域幅の拡張【Powered by NICT】

Extending the Peak Bandwidth of Parameters for Softmax Selection in Reinforcement Learning
著者 (1件):
資料名:
巻: 28  号:ページ: 1865-1877  発行年: 2017年 
JST資料番号: T0881A  ISSN: 2162-237X  CODEN: ITNNEP  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ソフトマックス選択は強化学習における行動選択のための最も一般的な方法の一つである。種々の最近提案された方法は,完全なパラメータ調整により,一層効果的である可能性があるが,多くのパラメータの調整を必要とする複雑な方法を実現することは困難である。ソフトマックス選択はその実装と調整のコスト節減を再検討,考慮に値するである。実際では,この方法を環境の適切にたった一つのパラメータを実際に十分に効果がある。本論文の目的は,良好なパラメータの帯域幅を拡張するためのこの方法の変数設定を改善し,それによる実行とパラメータ調整のコストを削減することである。これを達成するために,ソフトマックス選択のピーク帯域幅を拡張するためのマルコフ決定過程の漸近等分割性を利用した。エピソードタスクを用いて,著者らは,この環境は帯域幅の拡大に効果的であることを,安定性の点でより良い政策をもたらすことを示した。帯域幅は一連の統計的検定で評価した。Copyright 2017 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
人工知能 

前のページに戻る