文献
J-GLOBAL ID:202202238820845272   整理番号:22A0150087

平滑化された固有報酬推定による統一された奇妙な駆動学習【JST・京大機械翻訳】

Unified curiosity-Driven learning with smoothed intrinsic reward estimation
著者 (5件):
資料名:
巻: 123  ページ: Null  発行年: 2022年 
JST資料番号: D0611A  ISSN: 0031-3203  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: オランダ (NLD)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
強化学習(RL)では,外因性報酬がまばらか存在しない場合,固有報酬推定は政策学習に必要である。この目的のために,固有報酬推定の完全性の観点から,スパース外因性報酬問題に対処するため,平滑化固有報酬推定(UCLSE)による統一有向性駆動学習を提案した。さらに,2つの主流固有報酬推定法を動的に統一するために,状態分布意識重みづけ法とポリシー意識重み付け法を提案した。この方法で,エージェントは環境をより効果的かつ効率的に探索できる。このフレームワークの下で,固有報酬のより正確な推定のためにタスク関連特徴を抽出するための注意モジュールを用いることを提案した。さらに,電流遷移に近い遷移のバッチで固有報酬を平滑化することにより,ポリシー学習のロバスト性を改善することを提案する。Atariゲームに関する広範な実験結果は,著者らの方法がスコアと訓練効率の両方に関して最先端の手法より優れていることを実証した。Copyright 2022 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
人工知能 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る