抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
画像キャプティングは,人間による画像記述の根底にあるメカニズムのより深い理解と同様に,人間-コンピュータインタラクションを改善するための重要なタスクである。近年,この研究分野は急速に発展し,多くの印象的な結果が得られた。典型的なモデルは,画像符号化のための畳み込み型ものを含むニューラルネットワークと,それらをテキストに復号化するためのリカレントなものを含む。さらに,注目機構と変圧器は,ブースティング性能に積極的に使用されている。しかし,最良のモデルでさえ,データ不足でそれらの品質に限界がある。異なる状況におけるオブジェクトの多様な記述を生成するために,大きな訓練セットが必要である。画像数に関してかなり大きいが,現在の一般的に使用されるデータセットは,1つの画像当たりの異なるキャップの数に関して極めて小さい。テキスト増強法を用いて訓練データセットを拡張した。方法:ベースラインとしての同義語による増強と,変換者(BERT)からの双方向エンコーダ表現と呼ばれる最先端の言語モデルを含む。その結果,データセット上で訓練されたモデルは,増加のないデータセットで訓練されたモデルよりも良い結果を示した。Copyright 2021 The Author(s) All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】