強化学習ベンチマークの信頼できる検証【JST・京大機械翻訳】

Mueller-Brockhausen Matthias; Plaat Aske; Preuss Mike

プレプリント

J-GLOBAL ID：202202216443792284 整理番号：22P0297725

強化学習ベンチマークの信頼できる検証【JST・京大機械翻訳】

Reliable validation of Reinforcement Learning Benchmarks

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2022年03月02日プレプリントサーバーでの情報更新日： 2022年03月02日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

強化学習(RL)は,全体として,ゲームAIとAIにおける最も動的な研究領域の1つであり,そして,多様なゲームを,その突出した試験問題として使用した。しかしながら,それは,現在,ほとんどのアルゴリズムAI研究に影響する複製可能性危機に悩まされている。強化学習におけるベンチマークは,検証可能な結果を通して改良することができた。Atariのような異なるアルゴリズムを比較するため,そのスコアを用いる多数のベンチマーク環境が存在する。それにもかかわらず,レビュー者は,正確な訓練曲線を再現するのが難しいので,図形が真の値を表すことを信頼しなければならない。研究結果を検証するために,元の実験データへのアクセスを提供することにより,この状況の改善を提案した。そのために,最小トレースの概念に依存する。これらは,決定論的RL環境における動作シーケンスの再シミュレーションを可能にし,次に,大規模計算クラスタを必要とせずに,実験結果の検証,再利用,および手動検査を可能にする。それはまた,提示した報酬グラフの検証,個々のエピソードの検査,および追跡論文における適切な比較のための結果データ(ベースライン)の再使用を可能にする。この測度が既存のRLと再現性エコシステムに良く適合するように,Gymで動作するプラグアンドプレイコードを提供した。提案アプローチは,オフラインRLデータセットで使われる通常のMDPトレースと比較して,最小トレースが,最大≒10 ̄4:1(Atari Pongで94GBから8MB)までのデータ圧縮比を可能にするので,自由に利用可能で,使いやすく,最小オーバヘッドを追加する。本論文では,様々なゲームに対する概念実証結果を示した。【JST・京大機械翻訳】

, , , , , , , , , ,
, , , , 【Automatic Indexing@JST】

人工知能

, , ,

前のページに戻る