BEVフォーマ:時空間変圧器によるマルチCamera画像からの鳥の目視表現の学習【JST・京大機械翻訳】

Li Zhiqi; Wang Wenhai; Li Hongyang; Xie Enze; Sima Chonghao; Lu Tong; Yu Qiao; Dai Jifeng

プレプリント

J-GLOBAL ID：202202217230696040 整理番号：22P0323491

BEVフォーマ:時空間変圧器によるマルチCamera画像からの鳥の目視表現の学習【JST・京大機械翻訳】

BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (8件)： , , , , , , ,
資料名：
発行年： 2022年03月31日プレプリントサーバーでの情報更新日： 2022年07月13日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

マルチカメラ画像に基づく3D検出とマップセグメンテーションを含む3D視覚認識タスクは自律駆動システムに必須である。本研究では,複数の自律駆動知覚タスクをサポートするために,時空間変圧器による統一BEV表現を学習する,BEVフォーマルと呼ばれる新しいフレームワークを提案した。ナットシェルにおいて,BEVフォルマーは,予め定義されたグリッド形状BEVクエリを通して空間および時間空間と相互作用することによって空間および時間情報の両方を利用する。空間情報を集約するために,各BEVクエリーがカメラビューの関心領域から空間特徴を抽出する空間交差注意を設計した。時間的情報のために,著者らは,歴史BEV情報を再帰的に融合するための一時的自己注意を提案した。提案アプローチは,ニュースケテストセットに関するNDSメトリックの新しい最先端56.9%の項を達成し,これは,以前の最良芸術よりも9.0ポイント高く,LiDARベースベースラインの性能とのパーツである。さらに,BEVフォルマーは,低可視度条件下で物体の速度推定と想起の精度を著しく改善することを示した。このコードは,ウルル{https://github.com/zhiqi li/BEVFormer}で利用可能である。【JST・京大機械翻訳】

, , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

図形・画像処理一般

, , , , , , , ,

前のページに戻る