高密度予測のための視覚変圧器アダプタ【JST・京大機械翻訳】

Chen Zhe; Duan Yuchen; Wang Wenhai; He Junjun; Lu Tong; Dai Jifeng; Qiao Yu

プレプリント

J-GLOBAL ID：202202215388941090 整理番号：22P0351621

高密度予測のための視覚変圧器アダプタ【JST・京大機械翻訳】

Vision Transformer Adapter for Dense Predictions

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (7件)： , , , , , ,
資料名：
発行年： 2022年05月17日プレプリントサーバーでの情報更新日： 2023年02月13日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本研究では,Vision変換機(ViT)のための単純だが強力な高密度予測タスクアダプタを検討した。視覚特異的誘導バイアスをアーキテクチャに組み込む最近進んだ変異体とは異なり,プレーンViTは弱い事前仮定により密な予測に対して劣った性能を受ける。この課題に取り組むために,ViT-Adapterを提案し,それは視覚特異的変圧器に匹敵する性能を達成するために,プレーンViTを可能にする。特に,このフレームワークのバックボーンは,大規模マルチモーダルデータから強力な表現を学習できるプレーンViTである。下流タスクに転送するとき,事前訓練フリーアダプタを用いて,画像関連誘導バイアスをモデルに導入し,これらのタスクに適している。物体検出,インスタンスセグメンテーション,および意味セグメンテーションを含む複数の高密度予測タスクにおけるViT-Adapterを検証した。特に,余分な検出データを用いずに,著者らのViT-Adapter-Lは,COCO試験-dev上で最先端の60.9ボックスAPと53.0マスクAPをもたらした。著者らは,ViT-Adapterが視覚特異的変圧器の代替として役立ち,将来の研究を容易にすることを期待する。コードとモデルはhttps://github.com/czczup/ViT Adapterで放出される。【JST・京大機械翻訳】

, , , , , , , ,
, , 【Automatic Indexing@JST】

図形・画像処理一般 , パターン認識

, , ,

前のページに戻る