文献
J-GLOBAL ID:201702218583906580   整理番号:17A1385769

多目的強化学習のための報酬変化におけるポリシー不変性【Powered by NICT】

Policy invariance under reward transformations for multi-objective reinforcement learning
著者 (6件):
資料名:
巻: 263  ページ: 60-73  発行年: 2017年 
JST資料番号: W0360A  ISSN: 0925-2312  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: オランダ (NLD)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
強化学習(RL)は強力でよく研究されている機械学習パラダイム,エージェントが報酬信号を最大化することにより,環境におけるその性能を改善するための学習である。多目的強化学習(MORL)では報酬信号がベクトルであり,各成分は異なる目的の性能を表す。報酬成形は,単一目的問題における強化学習エージェントの性能と学習速度を改善するために使用することに成功した技術の確立済みファミリである。報酬形成の基本的前提は,環境から受ける自然報酬に付加的な成形報酬を付加する,ドメイン知識を組み込むとエージェントの探索を導くことである。ポテンシャルに基づく報酬形成(PBRS)は付加的な保証を提供する報酬形成の特異的形態である。本論文では,MORL問題へのPBRSの理論的保証を拡張した。より詳しくいえば,ここでは,PBRSは,単一およびマルチエージェントMORL両方における真のParetoフロントを変化させないことを理論的証明を提供した。も単一およびマルチエージェントMORL問題におけるPBRSの影響の最初の公開された経験的研究に寄与している。Copyright 2017 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【Powered by NICT】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
人工知能 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る