シーンテキスト検出器のブースティングのための視覚言語プレトレーニング【JST・京大機械翻訳】

Song Sibo; Wan Jianqiang; Yang Zhibo; Tang Jun; Cheng Wenqing; Bai Xiang; Yao Cong

プレプリント

J-GLOBAL ID：202202204177795126 整理番号：22P0340782

シーンテキスト検出器のブースティングのための視覚言語プレトレーニング【JST・京大機械翻訳】

Vision-Language Pre-Training for Boosting Scene Text Detectors

出版者サイト {{ this.onShowPLink() }} 複写サービスで全文入手
高度な検索・分析はJDreamⅢで

この文献はプレプリントです。プレプリントについてはこちらをご確認ください。

著者 (7件)： , , , , , ,
資料名：
発行年： 2022年04月28日プレプリントサーバーでの情報更新日： 2022年04月28日
JST資料番号： O7000B 資料種別：プレプリント
記事区分：プレプリント発行国：アメリカ合衆国 (USA) 言語：英語 (EN)

最近,ビジョン言語関節表現学習は,様々なシナリオにおいて非常に効果的であることが証明されている。本論文では,テキストが言語の書かれた形式であるため,視覚と言語の2つのモダリティ間のクロスモーダルインタラクションを本質的に含むタスクである,シーンテキスト検出のためのビジョン言語関節学習を特に適応させた。具体的には,シーンテキスト検出器の性能を高めるため,視覚言語事前訓練を通して文脈化,関節表現を学習することを提案する。この目的に向けて,画像エンコーダ,テキスト符号器,およびクロスモーダル符号器,ならびに3つのプレテキストタスク(画像テキストコントラスト学習(ITC),マスク言語モデリング(MLM),および単語イン画像予測(WIP))による予訓練アーキテクチャを考案した。事前訓練モデルは,より豊富な意味論により,より有益な表現を生成でき,それは,ダウンストリームテキスト検出タスクにおいて,既存のシーンテキスト検出器(EASTおよびPSENetのような)を容易に有益にすることができた。標準ベンチマークに関する広範な実験は,提案したパラダイムが,以前の事前訓練手法よりも,様々な代表的なテキスト検出器の性能を著しく改良できることを示した。コードと事前訓練モデルは公開されている。【JST・京大機械翻訳】

, , , , , , , , , , , , ,
, , 【Automatic Indexing@JST】

パターン認識 , 人工知能

, , , ,

前のページに戻る