文献
J-GLOBAL ID:202002210841861881   整理番号:20A2336978

PDF2LaTeX PDFからLaTeXへの数学文書変換のための深層学習システム【JST・京大機械翻訳】

PDF2LaTeX A Deep Learning System to Convert Mathematical Documents from PDF to LaTeX
著者 (2件):
資料名:
号: DocEng ’20  ページ: 1-10  発行年: 2020年 
JST資料番号: D0698C  資料種別: 会議録 (C)
記事区分: 原著論文  発行国: アメリカ合衆国 (USA)  言語: 英語 (EN)
抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
PDFフォーマットにおける科学的出版物の数学的内容は,通常のPDFパーザとOCRツールによって容易に分析できない。本論文では,事後記述と画像ベースPDFファイルの両方における数学表現とテキストを抽出するPDF2LaTeXと呼ぶ新しいOCRシステムを提案し,それらをLaTeXマークアップに変換する。前処理ステップとして,PDF2LaTeXはまずPDFファイルをその画像フォーマットに与え,次に投影プロファイル切断(PPC)を用いてページレイアウトを分析した。数学表現とテキストの解析は,一連の深層学習アルゴリズムに基づいている。最初に,二値分類器として畳み込みニューラルネットワーク(CNN)を用いて,視覚特徴に基づく数学画像ブロックを検出した。次に,条件付きランダム場(CRF)を用いて,意味論とコンテキスト情報を組み込むことによって,数学テキスト境界を検出した。最後に,このシステムは,CNN-LSTMニューラルネットワークアーキテクチャに基づく2つの異なるモデルを使用し,数学表現と平文の画像ブロックをLaTeX表現に変換する。テストのために,著者らは,arXiv.orgに関する刊行物から収集した102PDFページから成る新しいデータセットを作成し,PDF2LaTeXと最先端の市販ソフトウェアInfty Readerの間の性能を比較した。実験結果は,提案したシステムが,予測されたLaTeXとグランドトルースの間のストリング編集距離によって測定されるより良い認識精度(81.1%)を達成したことを示した。Please refer to this article’s citation page on the publisher website for specific rights information. Translated from English into Japanese by JST.【JST・京大機械翻訳】
シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。

準シソーラス用語:
シソーラス用語/準シソーラス用語
文献のテーマを表すキーワードです。
部分表示の続きはJDreamⅢ(有料)でご覧いただけます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
, 【Automatic Indexing@JST】
分類 (3件):
分類
JSTが定めた文献の分類名称とコードです
計算機システム開発  ,  データ保護  ,  計算機ソフトウエア一般 
タイトルに関連する用語 (4件):
タイトルに関連する用語
J-GLOBALで独自に切り出した文献タイトルの用語をもとにしたキーワードです

前のページに戻る