平滑化された固有報酬推定による統一された奇妙な駆動学習【JST・京大機械翻訳】

Huang Fuxian; Li Weichao; Cui Jiabao; Fu Yongjian; Li Xi

文献

J-GLOBAL ID：202202238820845272 整理番号：22A0150087

平滑化された固有報酬推定による統一された奇妙な駆動学習【JST・京大機械翻訳】

Unified curiosity-Driven learning with smoothed intrinsic reward estimation

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A0150087&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A0150087&from=J-GLOBAL&jstjournalNo=D0611A") }}

著者 (5件)： , , , ,
資料名：
巻： 123 ページ： Null 発行年： 2022年
JST資料番号： D0611A ISSN： 0031-3203 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：オランダ (NLD) 言語：英語 (EN)

強化学習(RL)では,外因性報酬がまばらか存在しない場合,固有報酬推定は政策学習に必要である。この目的のために,固有報酬推定の完全性の観点から,スパース外因性報酬問題に対処するため,平滑化固有報酬推定(UCLSE)による統一有向性駆動学習を提案した。さらに,2つの主流固有報酬推定法を動的に統一するために,状態分布意識重みづけ法とポリシー意識重み付け法を提案した。この方法で,エージェントは環境をより効果的かつ効率的に探索できる。このフレームワークの下で,固有報酬のより正確な推定のためにタスク関連特徴を抽出するための注意モジュールを用いることを提案した。さらに,電流遷移に近い遷移のバッチで固有報酬を平滑化することにより,ポリシー学習のロバスト性を改善することを提案する。Atariゲームに関する広範な実験結果は,著者らの方法がスコアと訓練効率の両方に関して最先端の手法より優れていることを実証した。Copyright 2022 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , ,
, , 【Automatic Indexing@JST】

著者キーワード (4件)： , , ,

人工知能

, , , ,

前のページに戻る