抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
現在の生産現場では,加工作業や搬送作業をロボットが行うFactory Automation化(FA化)が進んでいる。工場での加工用ロボットは教示による制御が一般的である。一方,少量多品種の生産現場においては,変化への柔軟な対応が求められている。そこで,強化学習を導入することで,ロボットの作業を環境に応じて最適化することを目指す。報酬獲得により行動系列を強化する強化学習法では,獲得した報酬値の扱い方として更新型と累積型がある。環境の変化に追随したり,教示データから更新を行ったりするには,更新型の方が望ましい。本研究では,強化学習法であるProfit Sharingに着目し,評価値の更新方法と行動選択方法の関係について調べ,更新型のProfit Sharingの可能性について検討する。(著者抄録)