Rest V2:シンプル,より速く,より強力な【JST・京大機械翻訳】

Zhang Qing-Long; Yang Yu-Bin

プレプリント

J-GLOBAL ID：202202208364065404 整理番号：22P0332654

Rest V2:シンプル,より速く,より強力な【JST・京大機械翻訳】

ResT V2: Simpler, Faster and Stronger

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (2件)： ,
資料名：
発行年： 2022年04月15日プレプリントサーバーでの情報更新日： 2022年09月27日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本論文では,視覚認識のためのより簡単で,より速く,より強力なマルチスケールビジョン変換器であるResTv2を提案した。ResTv2は,ResTv1(すなわち,マルチヘッド相互作用部分を除く)におけるEMSA構造を単純化し,ダウンサンプリング操作によって引き起こされる損失中および高周波情報を再構成するために,アップサンプル操作を採用した。さらに,下流タスクにResTv2バックボーンをよりよく適用するための異なる技術を検討した。EMSAv2と窓の注意を組み合わせると,理論的行列乗算FLOPを大幅に低減できるが,計算密度を著しく減少させ,その結果,より低い実際の速度を引き起こすことを見出した。ImageNet分類,COCO検出,およびADE20K意味セグメンテーションに関するResTv2を包括的に検証した。実験結果は,提案したResTv2が,大きなマージンによって最近最先端のバックボーンを凌駕し,固体バックボーンとしてのResTv2の可能性を示した。コードとモデルは,ウルル{https://github.com/wofmanaf/ResT}で公的に利用できる。【JST・京大機械翻訳】

, , , , , ,
, , , 【Automatic Indexing@JST】

パターン認識 , 図形・画像処理一般

前のページに戻る