プレプリント
J-GLOBAL ID:202202216443792284   整理番号:22P0297725

強化学習ベンチマークの信頼できる検証【JST・京大機械翻訳】

Reliable validation of Reinforcement Learning Benchmarks
著者 (3件):
資料名:
発行年: 2022年03月02日  プレプリントサーバーでの情報更新日: 2022年03月02日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
強化学習(RL)は,全体として,ゲームAIとAIにおける最も動的な研究領域の1つであり,そして,多様なゲームを,その突出した試験問題として使用した。しかしながら,それは,現在,ほとんどのアルゴリズムAI研究に影響する複製可能性危機に悩まされている。強化学習におけるベンチマークは,検証可能な結果を通して改良することができた。Atariのような異なるアルゴリズムを比較するため,そのスコアを用いる多数のベンチマーク環境が存在する。それにもかかわらず,レビュー者は,正確な訓練曲線を再現するのが難しいので,図形が真の値を表すことを信頼しなければならない。研究結果を検証するために,元の実験データへのアクセスを提供することにより,この状況の改善を提案した。そのために,最小トレースの概念に依存する。これらは,決定論的RL環境における動作シーケンスの再シミュレーションを可能にし,次に,大規模計算クラスタを必要とせずに,実験結果の検証,再利用,および手動検査を可能にする。それはまた,提示した報酬グラフの検証,個々のエピソードの検査,および追跡論文における適切な比較のための結果データ(ベースライン)の再使用を可能にする。この測度が既存のRLと再現性エコシステムに良く適合するように,Gymで動作するプラグアンドプレイコードを提供した。提案アプローチは,オフラインRLデータセットで使われる通常のMDPトレースと比較して,最小トレースが,最大≒10 ̄4:1(Atari Pongで94GBから8MB)までのデータ圧縮比を可能にするので,自由に利用可能で,使いやすく,最小オーバヘッドを追加する。本論文では,様々なゲームに対する概念実証結果を示した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
人工知能 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る