画像キャプションのためのBERTを用いたテキスト増強【JST・京大機械翻訳】

Atliha Viktar; Sesok Dmitrij

文献

J-GLOBAL ID：202102213322350795 整理番号：21A0577793

画像キャプションのためのBERTを用いたテキスト増強【JST・京大機械翻訳】

Text Augmentation Using BERT for Image Captioning

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=21A0577793&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=21A0577793&from=J-GLOBAL&jstjournalNo=U7135A") }}

著者 (2件)： ,
資料名：
巻： 10 号： 17 ページ： 5978 発行年： 2020年
JST資料番号： U7135A ISSN： 2076-3417 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：スイス (CHE) 言語：英語 (EN)

画像キャプティングは,人間による画像記述の根底にあるメカニズムのより深い理解と同様に,人間-コンピュータインタラクションを改善するための重要なタスクである。近年,この研究分野は急速に発展し,多くの印象的な結果が得られた。典型的なモデルは,画像符号化のための畳み込み型ものを含むニューラルネットワークと,それらをテキストに復号化するためのリカレントなものを含む。さらに,注目機構と変圧器は,ブースティング性能に積極的に使用されている。しかし,最良のモデルでさえ,データ不足でそれらの品質に限界がある。異なる状況におけるオブジェクトの多様な記述を生成するために,大きな訓練セットが必要である。画像数に関してかなり大きいが,現在の一般的に使用されるデータセットは,1つの画像当たりの異なるキャップの数に関して極めて小さい。テキスト増強法を用いて訓練データセットを拡張した。方法:ベースラインとしての同義語による増強と,変換者(BERT)からの双方向エンコーダ表現と呼ばれる最先端の言語モデルを含む。その結果,データセット上で訓練されたモデルは,増加のないデータセットで訓練されたモデルよりも良い結果を示した。Copyright 2021 The Author(s) All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , , , ,
, , , 【Automatic Indexing@JST】

著者キーワード (3件)： , ,

図形・画像処理一般

引用文献 (47件)：

Staniūtė, R.; Šešok, D. A Systematic Literature Review on Image Captioning. Appl. Sci. 2019, 9, 2024.
Zafar, B.; Ashraf, R.; Ali, N.; Iqbal, M.K.; Sajid, M.; Dar, S.H.; Ratyal, N.I. A novel discriminating and relative global spatial image representation with applications in CBIR. Appl. Sci. 2018, 8, 2242.
Belalia, A.; Belloulata, K.; Kpalma, K. Region-based image retrieval in the compressed domain using shape-adaptive DCT. Multimed. Tools Appl. 2016, 75, 10175-10199.
Rennie, S.J.; Marcheret, E.; Mroueh, Y.; Ross, J.; Goel, V. Self-critical sequence training for image captioning. In Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, HI, USA, 21-26 July 2017; pp. 7008-7024.
Shuster, K.; Humeau, S.; Hu, H.; Bordes, A.; Weston, J. Engaging image captioning via personality. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Long Beach, CA, USA, 16-17 June 2019; pp. 12516-12526.

, ,

前のページに戻る