Pat
J-GLOBAL ID:201103071493527710
文書処理装置
Inventor:
,
,
,
Applicant, Patent owner:
Agent (1):
ポレール特許業務法人
Gazette classification:公開公報
Application number (International application number):2009222602
Publication number (International publication number):2011070529
Application date: Sep. 28, 2009
Publication date: Apr. 07, 2011
Summary:
【課題】書誌データを効率的に抽出出来る文書構造抽出装置を提供する。【解決手段】抽出対象とする書誌情報の識別子を記述した抽出対象メタデータ定義辞書161と、各メタデータが持つ特徴量を記述したメタデータ別特徴定義辞書162を情報保持部16に用意し、文書のカラム構造判定結果に基づき文字行とその順序を抽出し、各文字行について、情報保持部16に記憶されるメタデータ別特徴量に基づいてメタデータスコアを計算し、文字行位置に基づき、各メタデータスコアからメタデータらしさの加重移動平均を計算し、文字行の先頭位置から、抽出対象とするメタデータのうちの何れかのメタデータスコアの極大点を探し、連続する二つの極大点の間のうち、スコア値の谷間部分により書誌情報ラベルの境界位置を決定する。【選択図】図1
Claim (excerpt):
情報保持部と処理部とを備え、文字行の文書中の出現位置および文字列に基づき、前記処理部により書誌情報のメタデータを抽出する文書処理装置であって、
前記情報保持部は、
各メタデータが持つメタデータ別の特徴量を記述したメタデータ別特徴定義辞書を保持し、
前記処理部は、
文書のカラム構造判定の結果に基づき、文字行と文字行位置を抽出し、
前記情報保持部に保持される前記メタデータ別の特徴量に基づいて、前記文字行各々について、メタデータスコアを計算し、
前記メタデータスコアに基づき、前記書誌情報の境界位置を決定する、
ことを特徴とする文書処理装置。
IPC (2):
FI (4):
G06F17/21 570R
, G06F17/30 220B
, G06F17/30 170B
, G06F17/21 530A
F-Term (5):
5B075ND06
, 5B075NK04
, 5B109NA01
, 5B109QA03
, 5B109QA05
Patent cited by the Patent:
Cited by examiner (6)
-
タイトル抽出方法、タイトル抽出装置、タイトル抽出用プログラム、及び該プログラムを記録した記録媒体
Gazette classification:公開公報
Application number:特願2002-199100
Applicant:株式会社リコー
-
文書画像の構造化方法
Gazette classification:公開公報
Application number:特願平8-134918
Applicant:株式会社リコー
-
特開平3-240184
-
文書の論理構造の解析方法及びシステム
Gazette classification:公開公報
Application number:特願平6-134014
Applicant:日本アイ・ビー・エム株式会社
-
文書処理装置並びにその方法及びプログラム
Gazette classification:公開公報
Application number:特願2002-339999
Applicant:株式会社東芝
-
領域分割方法
Gazette classification:公開公報
Application number:特願平5-331252
Applicant:株式会社リコー
Show all
Return to Previous Page