プレプリント
J-GLOBAL ID:202202217230696040   整理番号:22P0323491

BEVフォーマ:時空間変圧器によるマルチCamera画像からの鳥の目視表現の学習【JST・京大機械翻訳】

BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers
著者 (8件):
資料名:
発行年: 2022年03月31日  プレプリントサーバーでの情報更新日: 2022年07月13日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
マルチカメラ画像に基づく3D検出とマップセグメンテーションを含む3D視覚認識タスクは自律駆動システムに必須である。本研究では,複数の自律駆動知覚タスクをサポートするために,時空間変圧器による統一BEV表現を学習する,BEVフォーマルと呼ばれる新しいフレームワークを提案した。ナットシェルにおいて,BEVフォルマーは,予め定義されたグリッド形状BEVクエリを通して空間および時間空間と相互作用することによって空間および時間情報の両方を利用する。空間情報を集約するために,各BEVクエリーがカメラビューの関心領域から空間特徴を抽出する空間交差注意を設計した。時間的情報のために,著者らは,歴史BEV情報を再帰的に融合するための一時的自己注意を提案した。提案アプローチは,ニュースケテストセットに関するNDSメトリックの新しい最先端56.9%の項を達成し,これは,以前の最良芸術よりも9.0ポイント高く,LiDARベースベースラインの性能とのパーツである。さらに,BEVフォルマーは,低可視度条件下で物体の速度推定と想起の精度を著しく改善することを示した。このコードは,ウルル{https://github.com/zhiqi li/BEVFormer}で利用可能である。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般 

前のページに戻る