学習ルールによるポリシーの学習【JST・京大機械翻訳】

Araki Brandon; Choi Jeana; Chin Lillian; Li Xiao; Rus Daniela

文献

J-GLOBAL ID：202202287246143529 整理番号：22A0457645

学習ルールによるポリシーの学習【JST・京大機械翻訳】

Learning Policies by Learning Rules

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A0457645&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A0457645&from=J-GLOBAL&jstjournalNo=W2448A") }}

著者 (5件)： , , , ,
資料名：
巻： 7 号： 2 ページ： 1284-1291 発行年： 2022年
JST資料番号： W2448A ISSN： 2377-3766 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

実証から複雑なタスクのための解釈可能な政策を効率よく学習することは,挑戦的な問題である。著者らは,専門家が追従する規則を学習することによって,エキスパート実証を模倣するために学習する新しい学習アルゴリズムである論理的オプス(HILO)による階層的推論を提示した。規則を線形時間論理(LTL)公式として表現し,それは解釈可能であり,複雑な挙動を符号化できる。高レベル命題から規則を学習する以前の研究と異なり,HILOは入力として命題と低レベル軌道の両方を取ることにより規則を学習する。これは,LTL式,命題,および低レベル軌道上のBayesモデルを定義することにより,これを行う。Bayesモデルは,与えられたLTL公式の最適政策を見つけるために,プランナーを用いて公式から低レベル軌道までのギャップを橋渡しする。次に,確率的変分推論を用いて,エキスパート実証を与える公式と政策上の事後分布を見出した。著者らは,命題と低レベル状態の両方から規則を学習することによって,HILOは,より少ないデータを必要とする間,ルール学習タスクと4つの計画タスクに関する以前の研究を凌ぐことを示した。また,ロボットアームを複雑なパッキングタスクを教育することにより,実世界におけるHILOを検証した。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, ,
, , , 【Automatic Indexing@JST】

パターン認識 , 人工知能

前のページに戻る