抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ビジョンと言語間の細粒相互作用を捕捉するために視覚的およびテキスト的注意メカニズムを併用した二重注意ネットワーク(DANs)を提案した。DANs多段階によるテキストにおける画像と単語の特定領域に注意とモダリティの両者から得た情報を集める。このフレームワークに基づいて,著者らは,マルチモーダル推論とマッチングのための二種類のDANsを導入した。推論モデルは協調推論,視覚質問応答(VQA)のようなタスクに有用な中に互いにを操縦する視覚およびテキストの留意点を可能にした。さらに,マッチングモデルは,共有された意味論に焦点を当てて画像と文章間の類似性を推定するための二注意メカニズムを利用した。の大規模な実験は,視覚と言語を組み合わせてDANsの有効性を検証し,VQAと画像テキストマッチングのための公共ベンチマーク上で最先端技術レベルの性能を達成した。Copyright 2017 The Institute of Electrical and Electronics Engineers, Inc. All Rights reserved. Translated from English into Japanese by JST【Powered by NICT】