小訓練データを持つ歴史的文書のための効率的なOCRシステムの構築【JST・京大機械翻訳】

Martinek Jiri; Lenc Ladislav; Kral Pavel; Kral Pavel

文献

J-GLOBAL ID：202002272478005599 整理番号：20A2573657

小訓練データを持つ歴史的文書のための効率的なOCRシステムの構築【JST・京大機械翻訳】

Building an efficient OCR system for historical documents with little training data

出版者サイト複写サービスで全文入手 {{ this.onShowCLink("http://jdream3.com/copy/?sid=JGLOBAL&noSystem=1&documentNoArray=20A2573657&COPY=1") }}
高度な検索・分析はJDreamⅢで {{ this.onShowJLink("http://jdream3.com/lp/jglobal/index.html?docNo=20A2573657&from=J-GLOBAL&jstjournalNo=W0703A") }}

著者 (4件)： , , ,
資料名：
巻： 32 号： 23 ページ： 17209-17227 発行年： 2020年
JST資料番号： W0703A ISSN： 0941-0643 資料種別：逐次刊行物 (A)
記事区分：原著論文発行国：ドイツ (DEU) 言語：英語 (EN)

デジタル化された歴史的文書の数が,過去数十年の間に急速に増加しているので,情報検索と知識抽出の効率的方法を提供して,データをアクセスできる。そのような方法は,文書画像をテキスト表現に変換する光学的特性認識(OCR)に依存する。今日,OCR法は歴史的領域に適応しないことが多い。さらに,それらは通常大量の注釈付き文書を必要とする。したがって,本論文では,少量の実際の手動注釈付き訓練データのみを用いて,歴史的文書画像上でOCRを実行することができる一連の方法を紹介した。提示された完全なOCRシステムは,テキストブロックとラインセグメンテーションとOCRを含むページレイアウト解析という2つの主要なタスクを含む。セグメンテーション法は完全畳込みネットワークに基づいており,OCRアプローチは再帰ニューラルネットワークを利用する。両手法は関連する分野における最先端である。Porta fontiumポータルからOCRの新しい実際のデータセットを作成した。このコーパスは研究に対して自由に利用可能であり,すべての提案方法をこれらのデータに関して評価した。セグメンテーションとOCRタスクの両者は,少数の注釈付き実データサンプルだけで実現可能であることを示した。実験は,与えられた小さなデータセットで良好な性能を達成する方法を決定することを目的とする。また,得られたスコアは,いくつかの最先端のシステムのスコアと同等か,さらに良好であることを実証した。要約するために,本論文は,わずかな注釈付き訓練データだけを必要とする歴史的文書のための効率的なOCRシステムを作成する方法を示す。Copyright Springer-Verlag London Ltd., part of Springer Nature 2020 Translated from English into Japanese by JST.【JST・京大機械翻訳】

, , , , , , , ,
, , , , 【Automatic Indexing@JST】

著者キーワード (8件)： , , , , , , ,

人工知能

, , , ,

前のページに戻る