Pat
J-GLOBAL ID:201103071493527710

文書処理装置

Inventor:
Applicant, Patent owner:
Agent (1): ポレール特許業務法人
Gazette classification:公開公報
Application number (International application number):2009222602
Publication number (International publication number):2011070529
Application date: Sep. 28, 2009
Publication date: Apr. 07, 2011
Summary:
【課題】書誌データを効率的に抽出出来る文書構造抽出装置を提供する。【解決手段】抽出対象とする書誌情報の識別子を記述した抽出対象メタデータ定義辞書161と、各メタデータが持つ特徴量を記述したメタデータ別特徴定義辞書162を情報保持部16に用意し、文書のカラム構造判定結果に基づき文字行とその順序を抽出し、各文字行について、情報保持部16に記憶されるメタデータ別特徴量に基づいてメタデータスコアを計算し、文字行位置に基づき、各メタデータスコアからメタデータらしさの加重移動平均を計算し、文字行の先頭位置から、抽出対象とするメタデータのうちの何れかのメタデータスコアの極大点を探し、連続する二つの極大点の間のうち、スコア値の谷間部分により書誌情報ラベルの境界位置を決定する。【選択図】図1
Claim (excerpt):
情報保持部と処理部とを備え、文字行の文書中の出現位置および文字列に基づき、前記処理部により書誌情報のメタデータを抽出する文書処理装置であって、 前記情報保持部は、 各メタデータが持つメタデータ別の特徴量を記述したメタデータ別特徴定義辞書を保持し、 前記処理部は、 文書のカラム構造判定の結果に基づき、文字行と文字行位置を抽出し、 前記情報保持部に保持される前記メタデータ別の特徴量に基づいて、前記文字行各々について、メタデータスコアを計算し、 前記メタデータスコアに基づき、前記書誌情報の境界位置を決定する、 ことを特徴とする文書処理装置。
IPC (2):
G06F 17/21 ,  G06F 17/30
FI (4):
G06F17/21 570R ,  G06F17/30 220B ,  G06F17/30 170B ,  G06F17/21 530A
F-Term (5):
5B075ND06 ,  5B075NK04 ,  5B109NA01 ,  5B109QA03 ,  5B109QA05
Patent cited by the Patent:
Cited by examiner (6)
Show all

Return to Previous Page