プレプリント
J-GLOBAL ID:202202203052771865   整理番号:22P0201516

ソフトマックス深二重決定性ポリシー勾配【JST・京大機械翻訳】

Softmax Deep Double Deterministic Policy Gradients
著者 (3件):
資料名:
発行年: 2020年10月18日  プレプリントサーバーでの情報更新日: 2020年10月18日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
連続的制御,深い決定論的ポリシー勾配(DDPG)のための広く使用されたアクター-批評強化学習アルゴリズムは,性能に否定的に影響を及ぼすことができる過大評価問題に悩まされる。最先端のTwin Delayed Deep Depective Pelective Process(TD3)アルゴリズムは,過大推定問題を緩和するが,大きな過小評価バイアスをもたらすことができる。本論文では,連続制御における値関数推定のためのBoltzmannソフトマックス演算子の使用を提案した。まず,連続動作空間におけるソフトマックス演算子を理論的に解析した。次に,アクター-批評アルゴリズムにおけるソフトマックス演算子の重要な特性を明らかにし,すなわち,最適化景観を平滑化するのを助け,それはオペレータの利点に新しい光を投げかける。また,単一および二重推定器上でソフトマックス演算子を構築することにより,2つの新しいアルゴリズム,Softmax Deep Dend Detective Pelects(SD2)およびSoftmax Deep Double Dual Detective Pows(SD3)を設計し,それは過大評価および過小評価バイアスを効果的に改善することができた。挑戦的な連続制御タスクに関する広範な実験を行い,結果は,SD3が最先端の方法より優れていることを示した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
人工知能 
タイトルに関連する用語 (2件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る