抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本研究の目的は,交通信号制御問題のための強化学習に基づく実行可能な解決策を提供することである。最先端の強化学習手法は様々な分野で大きな成功をもたらしたが,高いサンプル効率の要件と訓練データが集められるかを考慮して,交通渋滞を軽減するためにそれを直接適用することは挑戦的である。本研究では,大都市圏で発生する重大な交通渋滞を緩和することを試みたときに遭遇するいくつかの課題に取り組んだ。特に,強化学習のための情報を検索する特定の監視カメラがダウン,トラフィックシミュレータなしでバッチデータから学習すること,および(3)交差点を横断して共有情報なしで制御決定を行うとき,トラフィック信号制御を扱うことができる解決策を提供する必要がある。上記の状況を扱う2段階フレームワークを提示した。フレームワークは,固定時間トラフィック信号制御スケジュールと3つの提案コンポーネント,有界動作,バッチ増強,および代理報酬クリッピングの支援でバッチデータから学習できるマルチエージェントオフポリシー強化学習を与える進化戦略アプローチに分解できる。実験により,提案フレームワークは,現在使用されている固定時間トラヒック信号計画と比較して,待ち時間に関してトラヒック輻輳を36%低減することを示した。さらに,このフレームワークは,結果を達成するためにシミュレータに600のクエリだけを必要とする。【JST・京大機械翻訳】