文献
J-GLOBAL ID:202002271138863341   整理番号:20A0874561

OCRsのアンサンブルを用いた生物講義のための品質意識型人間機械テキスト抽出【JST・京大機械翻訳】

Quality-Aware Human-Machine Text Extraction for Biocollections using Ensembles of OCRs
著者 (6件):
資料名:
巻: 2019  号: eScience  ページ: 116-125  発行年: 2019年 
JST資料番号: W2441A  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
画像化テキストからの情報抽出(IE)はテキスト認識プロセスの出力品質に影響される。誤ったまたは失われたテキストは,誤りを伝播するか,またはプレクラードIEさえも伝播する可能性がある。自動化された方法における低い信頼性は,いくつかのIEプロジェクトが排他的に人間の仕事に依存している理由である。それは生物学的コレクション(バイオコレクション)の場合であり,そこではデジタル化ラベルに見られるメタデータ(Darwin-core Terms)が市民科学者によって転写される。本論文では,バイオコレクション画像において見出されたテキストの転写を得るために必要とされるcrow消費タスクの数を削減するアプローチを提示した。光学的チャター認識(OCR)エンジンのアンサンブルを用いることにより,OCRopus,Tesseract,GoogleクラウドOCRが,高い確率を持つラインと特性を同定する。これは,テキストの信頼性の低い断片だけに対して行われるために,密集した転写の必要性を減少させる。また,OCRsの集合の出力が冗長なクラウド消費プロセスの最初の「人間」転写として使用されるハイブリッドヒューマンマシンクラウドにより,transcriに対するラインの数も削減される。著者らのアプローチを6つのバイオコレクション(2,966画像)でテストし,クラウド消費タスクの数を76%削減した(OCRsのアンサンブルにより受け入れられたラインにより58%,そしてハイブリッドクラウドを使用したときに加速された収束により約18%)。自動抽出テキストは,0.001(0.1%)の文字誤り率を示した。Copyright 2020 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (1件):
分類
JSTが定めた文献の分類名称とコードです
図形・画像処理一般 
タイトルに関連する用語 (5件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る