抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
エージェントが自然言語命令のような複雑な入力を受け,行動シーケンスのような複雑な応答を生成する必要があるが,二値成功故障フィードバックを受信する必要のある,スパースおよび指定報酬からの学習問題を考察した。このような成功-失敗報酬は,しばしば特定される:それらは,意図的で偶発的な成功を区別しない。スパースフィードバックからの学習は効果的な探索を必要とするが,不特定報酬からの一般化は,偶発的な成功を達成する偽の軌跡を割引することに基づいている。KL発散のモード被覆方向を用いて探索し,一連の成功軌跡を収集し,次に,ロバストなポリシーを訓練するためにKL発散を追求するモードを追跡した。学習のためのより洗練されたフィードバックを提供する補助報酬関数を構築するために,Meta報酬学習(MeRL)を提案した。補助報酬関数のパラメータを訓練された政策の検証性能に関して最適化した。MeRLアプローチは,Bayes最適化に基づく著者らの代替報酬学習技術より優れていて,弱監督意味構文解析に関する最先端技術を達成した。それは,WikiTable QuessionとWikiSQLデータセットでそれぞれ1.2%と2.4%の以前の研究を改善する。【JST・京大機械翻訳】