抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
多様化領域における研究出版物の前例のない成長は,研究コミュニティを圧倒的にしてきた。これは,これらの研究文書を手動で分析することにより,この膨大な情報を抽出するための厄介なプロセスを必要とする。構造化方法で文書のコンテンツを自動的に抽出するために,メタデータおよびコンテンツを注釈しなければならない。科学コミュニティは,異なる発見的方法を形成し,異なる機械学習技術を適用することにより,コンテンツの自動抽出に焦点を合わせてきた。有名な会議構成員の1つ,ESWCは,研究論文のPDFファイルから,著者,親和国,加盟国,補助材料,セクション,テーブル,図,資金提供機関,およびEU資金プロジェクトのようなメタデータを抽出するための最新の課題を組織化する。多様な構成スタイルを持つ出版物から論文の論理的レイアウト構造を抽出するために使用できる特徴中心技術を提案した。論理的レイアウト構造に置かれた研究論文からユニークなメタデータを抽出するために,著者らは4段階新規アプローチ「FLAG-PDFe」を開発した。このアプローチは,研究文書の生の内容から,テキストと幾何学的情報に基づく明確で一般的な特徴に基づいて構築される。第一段階では,個々の論文の異なる物理的レイアウト成分を同定するために,明確な特徴を用いた。研究ジャーナルは,それらのユニークな出版スタイルとレイアウトフォーマットに従うので,これらの多様な出版パターンを扱うための一般的特徴を開発した。一般的特徴および機械学習モデルの総合評価を行った後に,論文の論理的レイアウト構造(LLS)/セクションを抽出するために,第3段階でサポートベクトル分類(SVC)を採用した。最後に,論文の望ましいメタデータを抽出するためにLLSに発見的方法を適用した。研究の結果は,金標準データセットを用いて得られた。その結果,0.877の再現率,精度0.928および0.897F測度が得られた。本アプローチは,ESWCチャレンジの最良のアプローチと比較して,f測度で16%の利得を達成した。Copyright 2020 The Institute of Electrical and Electronics Engineers, Inc. All rights reserved. Translated from English into Japanese by JST.【JST・京大機械翻訳】