スパースおよび非特定報酬からの一般化のための学習【JST・京大機械翻訳】

Agarwal Rishabh; Liang Chen; Schuurmans Dale; Norouzi Mohammad

プレプリント

J-GLOBAL ID：202202211665985399 整理番号：22P0056390

スパースおよび非特定報酬からの一般化のための学習【JST・京大機械翻訳】

Learning to Generalize from Sparse and Underspecified Rewards

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (4件)： , , ,
資料名：
発行年： 2019年02月19日プレプリントサーバーでの情報更新日： 2019年05月31日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

エージェントが自然言語命令のような複雑な入力を受け,行動シーケンスのような複雑な応答を生成する必要があるが,二値成功故障フィードバックを受信する必要のある,スパースおよび指定報酬からの学習問題を考察した。このような成功-失敗報酬は,しばしば特定される:それらは,意図的で偶発的な成功を区別しない。スパースフィードバックからの学習は効果的な探索を必要とするが,不特定報酬からの一般化は,偶発的な成功を達成する偽の軌跡を割引することに基づいている。KL発散のモード被覆方向を用いて探索し,一連の成功軌跡を収集し,次に,ロバストなポリシーを訓練するためにKL発散を追求するモードを追跡した。学習のためのより洗練されたフィードバックを提供する補助報酬関数を構築するために,Meta報酬学習(MeRL)を提案した。補助報酬関数のパラメータを訓練された政策の検証性能に関して最適化した。MeRLアプローチは,Bayes最適化に基づく著者らの代替報酬学習技術より優れていて,弱監督意味構文解析に関する最先端技術を達成した。それは,WikiTable QuessionとWikiSQLデータセットでそれぞれ1.2%と2.4%の以前の研究を改善する。【JST・京大機械翻訳】

, , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

人工知能

, ,

前のページに戻る