シーングラフは画像キャプションの改善に十分か?【JST・京大機械翻訳】

Milewski Victor; Moens Marie-Francine; Calixto Iacer

プレプリント

J-GLOBAL ID：202202205882627310 整理番号：22P0194419

シーングラフは画像キャプションの改善に十分か?【JST・京大機械翻訳】

Are scene graphs good enough to improve Image Captioning?

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (3件)： , ,
資料名：
発行年： 2020年09月25日プレプリントサーバーでの情報更新日： 2020年10月27日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

多くのトップ形成画像キャプテーションモデルは,画像記述を生成するためにオブジェクト検出モデルで計算したオブジェクト特徴のみに依存する。しかしながら,最近の研究では,オブジェクト間のインタラクションをより良く記述するために,キャプテーションへのオブジェクト関係に関する情報を導入するために,シーングラフを直接使用することを提案する。本研究では,画像キャプテーションにおけるシーングラフの使用を徹底的に調査した。付加的シーングラフ符号器を使用するかどうかは,より良い画像記述に導くことができ,画像キャプティング復号器状態を用いてグラフ更新を条件付けする条件付きグラフ注意ネットワーク(C-GAT)を提案する。最後に,予測シーングラフにおけるどの程度のノイズがキャプション品質に影響するかを決定した。全体として,シーングラフの特徴と,異なるキャプションメトリックスを横断するオブジェクト検出特徴のみを使用するモデルの間に有意差はなく,これは,既存のシーングラフ生成モデルが,画像キャプテーションにおいて有用であるのに,まだ雑音が多いことを示唆する。さらに,予測シーングラフの品質は,一般的に非常に低かったが,高品質シーングラフを用いた場合,強いBottom-Up Top-Downベースラインと比較して,3.3CIDErまでの利得を得た。https://github.com/iacercalixto/butd image captioningにおけるすべての実験を再現するためにソースコードを公開した。【JST・京大機械翻訳】

, , , , , , , , ,
, , , , , 【Automatic Indexing@JST】

パターン認識 , 図形・画像処理一般

, ,

前のページに戻る