ENGLISH 使い方
文献、特許、研究者などの科学技術情報サイト
文献
J-GLOBAL ID:202202239611355946   整理番号:22A0934545

時間制限付き半順序作業における協調行動学習のための漸進的報酬設計の提案

著者 (3件):
資料名:
巻: 2022  号: ICS-205  ページ: Vol.2022-ICS-205,No.10,1-8 (WEB ONLY)  発行年: 2022年02月14日 
JST資料番号: U0451A  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: 日本 (JPN)  言語: 日本語 (JA)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本稿では,異なる能力と役割を持つ複数のエージェントが,決められた順序で作業することで完了するタスクにおいて,自分の作業の効率化の学習と自分の前後に作業するエージェントとの連携行動の学習を両立させる手法を提案する.近年,深層強化学習の研究が活発に行われているが,エージェント間の協調行動の学習については未だ十分とは言えない.特にエージェントが独立した深層ネットワークを持つ分散的なマルチエージェント強化学習(MADRL)では,個々の作業に与える報酬の体系が協調行動に与える影響については不明な部分も多い.本稿で対象とする順序付きの作業では,特に初めのエージェントからは,かなり遅れてタスクが完了し,すでに他のタスクの作業中となることも多い.そのため,たとえば,自分の担当部分の完了時に報酬を与えるとタスクの完了という本来の目的と異なった報酬体系となり,自己中心の作業に特化し,他の行動を考慮しなくなる.一方で,全体の作業が終わったときにのみ報酬を与えると,自分の作業の学習が進まないばかりではなく,その後のエージェントの学習機会も失う.このような課題に対し,本提案では,報酬を2分割し,それを学習の遂行とともに変化させ,自分の作業の効率と協調行動をともに実現し,最終的には本来の目的と合致するように関連するすべての作業が完了したときにのみ報酬を与えるものとする.実験により,報酬比と収集した行動を比較し,提案手法が自己の作業と協調・連携行動のバランスのとれた行動学習を実現することを示す.(著者抄録)
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
ロボットの運動・制御 
引用文献 (13件):
もっと見る

前のページに戻る