抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ビジョン変換機(ViT)は,畳込みニューラルネットワーク(CNN)と比較して,様々なビジョンタスクのためのより一般的で支配的技術になっている。コンピュータビジョンにおける要求技術として,Vitsは,長距離関係に焦点を当てながら,様々な視覚問題を首尾よく解決している。本論文では,自己注意機構の基本的概念と背景を紹介する。次に,訓練および試験データセットと同様に,強度および弱点,計算コストに関して記述する最近のトップパーフォーマンスViT方法の包括的な概観を提供した。一般的なベンチマークデータセット上で,様々なViTアルゴリズムと最も代表的なCNN手法の性能を徹底的に比較した。最後に,洞察力のある観察でいくつかの限界を調べ,更なる研究方向を提供した。論文の収集と共にプロジェクトページは,https://github.com/khawar512/ViT Surveyで利用可能である。【JST・京大機械翻訳】