Pat
J-GLOBAL ID:200903024083297796
文書構造抽出方法および文書検索方法
Inventor:
,
,
,
Applicant, Patent owner:
Agent (1):
井上 学
Gazette classification:公開公報
Application number (International application number):2006112894
Publication number (International publication number):2007286861
Application date: Apr. 17, 2006
Publication date: Nov. 01, 2007
Summary:
【課題】 電子文書から見出しと類似部分からなる連続パターンを自動的に抽出する手法の提供。また、文書構造を用いて、構造を考慮した検索要求、検索結果分類、文書要約を行う検索文書検索手法の提供。さらに、画像などの文書中の単語で表されないオブジェクトに対する、文書構造をもとにした文書中の単語の関連付け手法の提供。および、それらのオブジェクトを単語による検索手法の提供。【解決手段】 電子文書の共通の形式へ変換し、見出しと類似部分が連続して出現する部分を発見し項目間の文書要素対応付けを行う文書構造抽出手法。また、電子文書と文書構造を記憶し、検索結果をその要約とともに返す文書検索手法。さらに、文書構造を用いて非オブジェクトに文書中の単語を関連付ける手法。および電子文書とそれに含まれる非文章オブジェクトとそれに関連付けられた単語の集合を記憶し、検索結果をその要約とともに返す非文章オブジェクト検索手法。【選択図】 図22
Claim (excerpt):
電子文書の文書データの入力を受け、該電子文書から文字列または非文章オブジェクトを含む複数の要素のレイアウトの解析により、前記複数の要素のうち見出し部分および類似部分の繰り返し領域を検出して同形式の要素が並ぶ繰り返しパターンを抽出する第1のステップと、
該繰り返しパターン内の見出しと内容部分を上下関係にある前記要素として関係付け、また繰り返しパターンに含まれる類似の要素同士を対応付けそれらを並列関係にある前記要素として関係付け、該要素間の関係の集合を前記電子文書の文書構造として格納する第2のステップとを有する文書構造抽出方法。
IPC (2):
FI (3):
G06F17/30 350C
, G06F17/21 501A
, G06F17/21 501T
F-Term (11):
5B009QA06
, 5B009QA07
, 5B009QA09
, 5B009QA12
, 5B075ND03
, 5B075ND40
, 5B075NK02
, 5B075NK21
, 5B075NK32
, 5B075NS01
, 5B075UU06
Patent cited by the Patent:
Return to Previous Page