特許
J-GLOBAL ID:200903024083297796

文書構造抽出方法および文書検索方法

発明者:
出願人/特許権者:
代理人 (1件): 井上 学
公報種別:公開公報
出願番号(国際出願番号):特願2006-112894
公開番号(公開出願番号):特開2007-286861
出願日: 2006年04月17日
公開日(公表日): 2007年11月01日
要約:
【課題】 電子文書から見出しと類似部分からなる連続パターンを自動的に抽出する手法の提供。また、文書構造を用いて、構造を考慮した検索要求、検索結果分類、文書要約を行う検索文書検索手法の提供。さらに、画像などの文書中の単語で表されないオブジェクトに対する、文書構造をもとにした文書中の単語の関連付け手法の提供。および、それらのオブジェクトを単語による検索手法の提供。【解決手段】 電子文書の共通の形式へ変換し、見出しと類似部分が連続して出現する部分を発見し項目間の文書要素対応付けを行う文書構造抽出手法。また、電子文書と文書構造を記憶し、検索結果をその要約とともに返す文書検索手法。さらに、文書構造を用いて非オブジェクトに文書中の単語を関連付ける手法。および電子文書とそれに含まれる非文章オブジェクトとそれに関連付けられた単語の集合を記憶し、検索結果をその要約とともに返す非文章オブジェクト検索手法。【選択図】 図22
請求項(抜粋):
電子文書の文書データの入力を受け、該電子文書から文字列または非文章オブジェクトを含む複数の要素のレイアウトの解析により、前記複数の要素のうち見出し部分および類似部分の繰り返し領域を検出して同形式の要素が並ぶ繰り返しパターンを抽出する第1のステップと、 該繰り返しパターン内の見出しと内容部分を上下関係にある前記要素として関係付け、また繰り返しパターンに含まれる類似の要素同士を対応付けそれらを並列関係にある前記要素として関係付け、該要素間の関係の集合を前記電子文書の文書構造として格納する第2のステップとを有する文書構造抽出方法。
IPC (2件):
G06F 17/30 ,  G06F 17/21
FI (3件):
G06F17/30 350C ,  G06F17/21 501A ,  G06F17/21 501T
Fターム (11件):
5B009QA06 ,  5B009QA07 ,  5B009QA09 ,  5B009QA12 ,  5B075ND03 ,  5B075ND40 ,  5B075NK02 ,  5B075NK21 ,  5B075NK32 ,  5B075NS01 ,  5B075UU06
引用特許:
出願人引用 (1件)

前のページに戻る