プレプリント
J-GLOBAL ID:202202211665985399   整理番号:22P0056390

スパースおよび非特定報酬からの一般化のための学習【JST・京大機械翻訳】

Learning to Generalize from Sparse and Underspecified Rewards
著者 (4件):
資料名:
発行年: 2019年02月19日  プレプリントサーバーでの情報更新日: 2019年05月31日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
エージェントが自然言語命令のような複雑な入力を受け,行動シーケンスのような複雑な応答を生成する必要があるが,二値成功故障フィードバックを受信する必要のある,スパースおよび指定報酬からの学習問題を考察した。このような成功-失敗報酬は,しばしば特定される:それらは,意図的で偶発的な成功を区別しない。スパースフィードバックからの学習は効果的な探索を必要とするが,不特定報酬からの一般化は,偶発的な成功を達成する偽の軌跡を割引することに基づいている。KL発散のモード被覆方向を用いて探索し,一連の成功軌跡を収集し,次に,ロバストなポリシーを訓練するためにKL発散を追求するモードを追跡した。学習のためのより洗練されたフィードバックを提供する補助報酬関数を構築するために,Meta報酬学習(MeRL)を提案した。補助報酬関数のパラメータを訓練された政策の検証性能に関して最適化した。MeRLアプローチは,Bayes最適化に基づく著者らの代替報酬学習技術より優れていて,弱監督意味構文解析に関する最先端技術を達成した。それは,WikiTable QuessionとWikiSQLデータセットでそれぞれ1.2%と2.4%の以前の研究を改善する。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
人工知能 
タイトルに関連する用語 (3件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る