補助報酬システムによる強化学習と逆強化学習の融合【JST・京大機械翻訳】

Tareq Wadhah Zeyad; Amasyali Mehmet Fatih

文献

J-GLOBAL ID：202202233085843699 整理番号：22A0853492

補助報酬システムによる強化学習と逆強化学習の融合【JST・京大機械翻訳】

Merging Reinforcement Learning and Inverse Reinforcement Learning via Auxiliary Reward System

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A0853492&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A0853492&from=J-GLOBAL&jstjournalNo=W2441A") }}

著者 (2件)： ,
資料名：
巻： 2022 号： ICAIIC ページ： 292-297 発行年： 2022年
JST資料番号： W2441A 資料種別：会議録 (C)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

近年,実証からの学習はロボット工学と対話型システムにおける有望な方法の1つになった。実証からの学習は,エージェントがエキスパートを観察することによって学習するモデルであった。専門家は前訓練されたエージェントまたは人間である。実証からの学習による主な問題は,実証における報酬表現と実際の環境の間の差異である。実証の構築の間,エージェントの性能を強化する新しい報酬を追加することは容易である。対照的に,実際の環境においては容易ではない。本研究は,この問題を解決するための以前の研究で構築する。これまでの研究では,エージェントは,デモンストレーションからビデオゲームを演ずる方法を学習するために,強化学習アルゴリズムを使用する。エージェントは,ハード探査環境における欠落報酬の問題を解決するために,外部報酬によって供給した。本研究では,逆強化学習を用いて,実証から外部報酬を抽出し,相互作用期間中に利用できる。結果は,逆学習が事前訓練の後,エージェントを環境と相互作用することができることを示した。さらに,エージェントの性能はより安定になった。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , ,
, , , 【Automatic Indexing@JST】

図形・画像処理一般

, , ,

前のページに戻る