抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ビジョン変換機(ViT)は,いくつかのコンピュータビジョンタスクを機能できる簡単なニューラルアーキテクチャである。それは,入力データまたは特定のタスクのいずれかの事前を組込むより最近のアーキテクチャとは対照的に,限られたビルトインアーキテクチャの先物を持っている。最近の研究では,ViTsが自己監督された予訓練,特にBeiTのようなBerTのような予訓練から恩恵を受けることを示した。本論文では,Vitsの教師つき訓練を再検討した。本手続きは,ResNet-50を訓練するために導入したレシピを構築,単純化する。それは,自己監督学習における実践に近い3つの増加だけによる新しい簡単なデータ認証手順を含む。画像分類(ImageNet-21kの事前訓練の有無によるImageNet-1k),転送学習,および意味セグメンテーションに関する評価は,著者らの手順がViTのための大きなマージン以前の完全教師つき訓練レシピによって性能が優れていることを示した。また,監視で訓練されたViTの性能は,より最近のアーキテクチャのそれに匹敵することを明らかにした。本結果は,ViTで実証された最近の自己監督アプローチのためのより良いベースラインとして役立つことができた。【JST・京大機械翻訳】