多目的強化学習のための時間差法【Powered by NICT】

Ruiz-Montiel Manuela; Mandow Lawrence; Perez-de-la-Cruz Jose-Luis

文献

J-GLOBAL ID：201702217397004596 整理番号：17A1385765

多目的強化学習のための時間差法【Powered by NICT】

A temporal difference method for multi-objective reinforcement learning

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=17A1385765&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=17A1385765&from=J-GLOBAL&jstjournalNo=W0360A") }}

著者 (3件)： , ,
資料名：
巻： 263 ページ： 15-25 発行年： 2017年
JST資料番号： W0360A ISSN： 0925-2312 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：オランダ (NLD) 言語：英語 (EN)

MPQ学習,多目的マルコフ決定問題におけるすべての決定論的非支配政策の集合を近似するアルゴリズム,報酬はベクトルであり,そして各成分は最大化する目的を表すについて述べた。MPQ学習はQ学習多目的のケースへのアイデアを直接一般化した。非凸Paretoフロンティアに適用でき,担持及び非担持の両方の解を得た。いくつかのベンチマーク問題へのMPQ学習の応用の結果を示した。アルゴリズムはこれらの問題,この手法の実現可能性を成功裡に解決する。も担持溶液のみを計算する標準線形化手順にMPQ学習を比較し,いくつかの場合にMPQ学習はスカラー化法と同じくらい有効であることを示した。Copyright 2017 Elsevier B.V., Amsterdam. All rights reserved. Translated from English into Japanese by JST.【Powered by NICT】

, , , , , , ,
, , , , 【Automatic Indexing@JST】

著者キーワード (4件)： , , ,

人工知能

前のページに戻る