プレプリント
J-GLOBAL ID:202202204177795126   整理番号:22P0340782

シーンテキスト検出器のブースティングのための視覚言語プレトレーニング【JST・京大機械翻訳】

Vision-Language Pre-Training for Boosting Scene Text Detectors
著者 (7件):
資料名:
発行年: 2022年04月28日  プレプリントサーバーでの情報更新日: 2022年04月28日
JST資料番号: O7000B  資料種別: プレプリント
記事区分: プレプリント  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
最近,ビジョン言語関節表現学習は,様々なシナリオにおいて非常に効果的であることが証明されている。本論文では,テキストが言語の書かれた形式であるため,視覚と言語の2つのモダリティ間のクロスモーダルインタラクションを本質的に含むタスクである,シーンテキスト検出のためのビジョン言語関節学習を特に適応させた。具体的には,シーンテキスト検出器の性能を高めるため,視覚言語事前訓練を通して文脈化,関節表現を学習することを提案する。この目的に向けて,画像エンコーダ,テキスト符号器,およびクロスモーダル符号器,ならびに3つのプレテキストタスク(画像テキストコントラスト学習(ITC),マスク言語モデリング(MLM),および単語イン画像予測(WIP))による予訓練アーキテクチャを考案した。事前訓練モデルは,より豊富な意味論により,より有益な表現を生成でき,それは,ダウンストリームテキスト検出タスクにおいて,既存のシーンテキスト検出器(EASTおよびPSENetのような)を容易に有益にすることができた。標準ベンチマークに関する広範な実験は,提案したパラダイムが,以前の事前訓練手法よりも,様々な代表的なテキスト検出器の性能を著しく改良できることを示した。コードと事前訓練モデルは公開されている。【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (2件):
分類
JSTが定めた文献の分類名称とコードです
パターン認識  ,  人工知能 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る