Cross-modal BERT:Self-Attentionによるマルチモーダル情報表現の獲得と相互予測

久良木優太; 宮澤和貴; 青木達哉; 堀井隆斗; 長井隆行; 長井隆行

文献

J-GLOBAL ID：202002250962075281 整理番号：20A1701417

Cross-modal BERT:Self-Attentionによるマルチモーダル情報表現の獲得と相互予測

Cross-modal BERT: Acquisition of Multi-modal Representation and Cross-modal Prediction based on Self-Attention

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A1701417&from=J-GLOBAL&jstjournalNo=U1701A") }}

著者 (6件)： , , , , ,
資料名：
巻： 34th ページ： ROMBUNNO.1Q3-GS-11-04 (WEB ONLY) 発行年： 2020年
JST資料番号： U1701A ISSN： 2758-7347 資料種別：会議録 (C)
記事区分：原著論文発行国：日本 (JPN) 言語：日本語 (JA)

人間は複数の感覚情報を利用することによって,1つの感覚情報よりも正確で抽象度の高い情報表現を得ることができる.とりわけコミュニケーションにおいてこの情報表現は重要となる.コミュニケーションでは,話し手が自らの感覚器官により観測した情報を言語化して表現する一方で,聞き手は話し手から得た言語情報を自らの感覚器官で得られる情報へと変換することで話し手の言葉を理解する.このように情報は双方向にやり取りされるため,マルチモーダル情報を単方向に予測するだけでは不十分であり,双方向に予測可能でなければならない.本研究ではBERTを用いて物体画像と言語情報を相互に予測可能なモデルを提案する.提案モデルの有用性を検証するためにクロスモーダル情報予測とマルチモーダル情報の分類タスクを行った.結果として,マルチモーダル情報表現を獲得し,物体画像と言語情報に関するクロスモーダル情報予測が可能なことを示した.また,マルチモーダル情報を利用することで,単モダリティのみを利用した場合よりも分類精度が向上することを示した.(著者抄録)

, , , , , , , ,
, , , , ,

人工知能 , パターン認識

, , , ,

前のページに戻る