文献
J-GLOBAL ID:202202265981246765   整理番号:22A1086832

画像キャプションタスクのための変圧器アーキテクチャに基づく深層学習アプローチ【JST・京大機械翻訳】

Deep Learning Approaches Based on Transformer Architectures for Image Captioning Tasks
著者 (4件):
資料名:
巻: 10  ページ: 33679-33694  発行年: 2022年 
JST資料番号: W2422A  ISSN: 2169-3536  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
本論文では,コンピュータビジョン研究領域内の画像キャプテーションタスクのための最先端のアプローチである視覚的注意に焦点を当てた。効率に関して符号器デコーダ視覚注意アーキテクチャに対する異なるハイパーパラメータ構成の影響を研究した。結果は,コスト関数と勾配ベース最適化器の両方の正しい選択が,キャプテーション結果に大きく影響することを示した。著者らのシステムは,交差エントロピー,Kullback-Leibler発散,平均二乗誤差,および負の対数尤度損失関数を考慮する。適応運動量(Adam),AdamW,RMSprop,確率的勾配降下,Adaデルタ最適化器。実験は,Adamとの交差エントロピーの組合せが,73.092のTop-5精度値および20.10のBLEU-4値を回復する最良の代替であることを示した。さらに,代替畳込みアーキテクチャの比較解析は,符号器としてのそれらの性能を示した。結果は,ResNext-101が,73.128のTop-5精度および19.80のBLEU-4によって外れることを示した。最適キャプテーション品質を探すとき,最良のオプションとして位置決め自体を位置決めする。しかし,MobileNetV3は,2,971,952のパラメータおよび0.23Giga固定点マルチプライム演算/秒(GMACS)で,はるかにコンパクトな代替であることを証明した。その結果,MobileNetV3は,BLEU-4とTop-5精度に対して,それぞれ19.50と72.928の値によってサポートされる,より低い計算性能のコストで,競合出力品質を提供する。最後に,視覚変圧器(ViT)とデータ効率の良い画像変圧器(DeiT)モデルをアーキテクチャの畳み込み成分を置き換えるために,DeiTはViT上で改善を達成し,BLEU-4計量で34.44の値を得た。Copyright 2022 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
符号理論  ,  図形・画像処理一般 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る