抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
視覚変圧器(ViT)の少数ショット学習能力は,非常に望まれるが,ほとんど研究されていない。本研究では,同じ数ショット学習フレームワーク,eg ̄Meta-Baselineを用いて,広く使用されたCNN特徴抽出器をViTモデルと置き換えることは,しばしば,数ショット分類性能をひどく損なうことを経験的に見出した。さらに,著者らの経験的研究は,誘導バイアスがない場合に,ViTsが,ほんの少しのラベル付き訓練データしか利用できない,少数ショット学習領域の下で,低品質のトークン依存性をしばしば学習し,これは,上記の性能劣化に大きく寄与することを示した。この課題を軽減するために,初めて,Vits,すなわち自己促進sUpervisioN(SUN)のための単純だが効果的な少数ショット訓練フレームワークを提案した。特に,グローバル意味学習SUNに対する従来のグローバル監視は,少数ショット学習データセット上でViTをさらに事前訓練し,次に,各パッチトークンを導くための個々の位置特定監視を生成するためにそれを使用する。この位置特定監督は,パッチトークンが類似または異種であり,トークン依存性学習を加速するViTを販売する。さらに,各パッチトークンにおける局所意味論をモデル化し,一般化可能パターン学習を助けるオブジェクト接地と認識能力を改善した。位置特定監視の品質を改善するために,著者らはさらに2つの技術を提案した:(1)バックグラウンドパッチ濾過を濾過するバックグラウンドパッチ濾過,そしてそれらを余分なバックグラウンドクラスに割り当てる;および2)生成された局所監視の精度を維持しながら,データ増強のための十分な多様性を導入するための空間一貫した増大。実験結果は,Vitsを用いたSUNが,Vitsによる他の少数ショット学習フレームワークを著しく凌駕し,CNN最先端技術より高い性能を達成する最初のものであることを示した。【JST・京大機械翻訳】