プレプリント
J-GLOBAL ID:202202215238521832   整理番号:22P0303317

医学教育ビデオにおける視覚-即時時間応答接地に向けて【JST・京大機械翻訳】

Towards Visual-Prompt Temporal Answering Grounding in Medical Instructional Video
著者 (4件):
資料名:
発行年: 2022年03月13日  プレプリントサーバーでの情報更新日: 2022年03月29日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
ビデオ(TAGV)における時間応答接地は,ビデオ(TSGV)における時間的文章接地から自然に誘導される新しいタスクである。非トリミングビデオとテキスト質問を考えて,このタスクは,質問に意味的に答えることができるビデオからマッチングスパンを位置決めすることを目指している。既存の方法は,テキスト質問により質問された視覚フレームスパンをマッチングすることにより,視覚スパンベース質問回答(QA)アプローチでTAGVタスクを定式化する傾向がある。しかし,テキスト質問と視覚回答の間の意味的特徴の弱い相関と巨大なギャップのために,視覚スパン予測子を採用する既存の方法は,TAGVタスクにおいて十分に機能しない。これらのギャップを埋めるために,著者らは,入力テキスト質問のためにテキストスパン位置確認を実行するための通路としてタイムスタンプのサブティルを導入する,ビジュアルプロミットテキストスパン位置決め(VPTSL)法を提案し,そして,視覚ハイライト特徴を,関節意味表現を強化するための事前訓練言語モデル(PLM)に即した。特に,抽出したテキストと視覚特徴の間のクロスモーダル相互作用を実行するために,コンテキストクエリの注意を利用した。次に,視覚的迅速性のために強調されたビデオテキストを通して,ハイライト特徴を得た。テキストと視覚特徴の間の意味的差異を軽減するために,著者らは,質問を符号化することによって,テキストスパン予測子を設計し,そして,PLMによって,刺激した視覚強調特徴を,強調した。その結果,TAGVタスクは,視覚回答を整合するサブティルのスパンを予測するために定式化した。医学指導データセット,すなわちMedVidQAに関する広範な実験は,提案したVPTSLが,大きなマージンを有するmIOUに関して28.36%の最先端技術(SOTA)方式より優れていて,それは提案した視覚迅速とテキストスパン予測子の有効性を実証した。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る