文献
J-GLOBAL ID:202002272478005599   整理番号:20A2573657

小訓練データを持つ歴史的文書のための効率的なOCRシステムの構築【JST・京大機械翻訳】

Building an efficient OCR system for historical documents with little training data
著者 (4件):
資料名:
巻: 32  号: 23  ページ: 17209-17227  発行年: 2020年 
JST資料番号: W0703A  ISSN: 0941-0643  資料種別: 逐次刊行物 (A)
記事区分: 原著論文  発行国: ドイツ (DEU)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
デジタル化された歴史的文書の数が,過去数十年の間に急速に増加しているので,情報検索と知識抽出の効率的方法を提供して,データをアクセスできる。そのような方法は,文書画像をテキスト表現に変換する光学的特性認識(OCR)に依存する。今日,OCR法は歴史的領域に適応しないことが多い。さらに,それらは通常大量の注釈付き文書を必要とする。したがって,本論文では,少量の実際の手動注釈付き訓練データのみを用いて,歴史的文書画像上でOCRを実行することができる一連の方法を紹介した。提示された完全なOCRシステムは,テキストブロックとラインセグメンテーションとOCRを含むページレイアウト解析という2つの主要なタスクを含む。セグメンテーション法は完全畳込みネットワークに基づいており,OCRアプローチは再帰ニューラルネットワークを利用する。両手法は関連する分野における最先端である。Porta fontiumポータルからOCRの新しい実際のデータセットを作成した。このコーパスは研究に対して自由に利用可能であり,すべての提案方法をこれらのデータに関して評価した。セグメンテーションとOCRタスクの両者は,少数の注釈付き実データサンプルだけで実現可能であることを示した。実験は,与えられた小さなデータセットで良好な性能を達成する方法を決定することを目的とする。また,得られたスコアは,いくつかの最先端のシステムのスコアと同等か,さらに良好であることを実証した。要約するために,本論文は,わずかな注釈付き訓練データだけを必要とする歴史的文書のための効率的なOCRシステムを作成する方法を示す。Copyright Springer-Verlag London Ltd., part of Springer Nature 2020 Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
人工知能 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る