画像キャプションタスクのための変圧器アーキテクチャに基づく深層学習アプローチ【JST・京大機械翻訳】

Castro Roberto; Pineda Israel; Lim Wansu; Morocho-Cayamcela Manuel Eugenio

文献

J-GLOBAL ID：202202265981246765 整理番号：22A1086832

画像キャプションタスクのための変圧器アーキテクチャに基づく深層学習アプローチ【JST・京大機械翻訳】

Deep Learning Approaches Based on Transformer Architectures for Image Captioning Tasks

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=22A1086832&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=22A1086832&from=J-GLOBAL&jstjournalNo=W2422A") }}

著者 (4件)： , , ,
資料名：
巻： 10 ページ： 33679-33694 発行年： 2022年
JST資料番号： W2422A ISSN： 2169-3536 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

本論文では,コンピュータビジョン研究領域内の画像キャプテーションタスクのための最先端のアプローチである視覚的注意に焦点を当てた。効率に関して符号器デコーダ視覚注意アーキテクチャに対する異なるハイパーパラメータ構成の影響を研究した。結果は,コスト関数と勾配ベース最適化器の両方の正しい選択が,キャプテーション結果に大きく影響することを示した。著者らのシステムは,交差エントロピー,Kullback-Leibler発散,平均二乗誤差,および負の対数尤度損失関数を考慮する。適応運動量(Adam),AdamW,RMSprop,確率的勾配降下,Adaデルタ最適化器。実験は,Adamとの交差エントロピーの組合せが,73.092のTop-5精度値および20.10のBLEU-4値を回復する最良の代替であることを示した。さらに,代替畳込みアーキテクチャの比較解析は,符号器としてのそれらの性能を示した。結果は,ResNext-101が,73.128のTop-5精度および19.80のBLEU-4によって外れることを示した。最適キャプテーション品質を探すとき,最良のオプションとして位置決め自体を位置決めする。しかし,MobileNetV3は,2,971,952のパラメータおよび0.23Giga固定点マルチプライム演算/秒(GMACS)で,はるかにコンパクトな代替であることを証明した。その結果,MobileNetV3は,BLEU-4とTop-5精度に対して,それぞれ19.50と72.928の値によってサポートされる,より低い計算性能のコストで,競合出力品質を提供する。最後に,視覚変圧器(ViT)とデータ効率の良い画像変圧器(DeiT)モデルをアーキテクチャの畳み込み成分を置き換えるために,DeiTはViT上で改善を達成し,BLEU-4計量で34.44の値を得た。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

符号理論 , 図形・画像処理一般

, , , ,

前のページに戻る