抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,視覚認識のためのより簡単で,より速く,より強力なマルチスケールビジョン変換器であるResTv2を提案した。ResTv2は,ResTv1(すなわち,マルチヘッド相互作用部分を除く)におけるEMSA構造を単純化し,ダウンサンプリング操作によって引き起こされる損失中および高周波情報を再構成するために,アップサンプル操作を採用した。さらに,下流タスクにResTv2バックボーンをよりよく適用するための異なる技術を検討した。EMSAv2と窓の注意を組み合わせると,理論的行列乗算FLOPを大幅に低減できるが,計算密度を著しく減少させ,その結果,より低い実際の速度を引き起こすことを見出した。ImageNet分類,COCO検出,およびADE20K意味セグメンテーションに関するResTv2を包括的に検証した。実験結果は,提案したResTv2が,大きなマージンによって最近最先端のバックボーンを凌駕し,固体バックボーンとしてのResTv2の可能性を示した。コードとモデルは,ウルル{https://github.com/wofmanaf/ResT}で公的に利用できる。【JST・京大機械翻訳】