抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
多くのトップ形成画像キャプテーションモデルは,画像記述を生成するためにオブジェクト検出モデルで計算したオブジェクト特徴のみに依存する。しかしながら,最近の研究では,オブジェクト間のインタラクションをより良く記述するために,キャプテーションへのオブジェクト関係に関する情報を導入するために,シーングラフを直接使用することを提案する。本研究では,画像キャプテーションにおけるシーングラフの使用を徹底的に調査した。付加的シーングラフ符号器を使用するかどうかは,より良い画像記述に導くことができ,画像キャプティング復号器状態を用いてグラフ更新を条件付けする条件付きグラフ注意ネットワーク(C-GAT)を提案する。最後に,予測シーングラフにおけるどの程度のノイズがキャプション品質に影響するかを決定した。全体として,シーングラフの特徴と,異なるキャプションメトリックスを横断するオブジェクト検出特徴のみを使用するモデルの間に有意差はなく,これは,既存のシーングラフ生成モデルが,画像キャプテーションにおいて有用であるのに,まだ雑音が多いことを示唆する。さらに,予測シーングラフの品質は,一般的に非常に低かったが,高品質シーングラフを用いた場合,強いBottom-Up Top-Downベースラインと比較して,3.3CIDErまでの利得を得た。https://github.com/iacercalixto/butd image captioningにおけるすべての実験を再現するためにソースコードを公開した。【JST・京大機械翻訳】