Pat
J-GLOBAL ID:200903088179439026

ページレイアウト属性に基づく文書クラスタリングの方法

Inventor:
Applicant, Patent owner:
Agent (2): 吉田 研二 ,  石田 純
Gazette classification:公開公報
Application number (International application number):2006242650
Publication number (International publication number):2007080263
Application date: Sep. 07, 2006
Publication date: Mar. 29, 2007
Summary:
【課題】文書ページ集合に関して生成されたクラスタリングを評価する方法を提供する。【解決手段】文書ページ集合に関して生成されたクラスタリングを評価する方法において、文書ページ集合を取得するステップと、前記集合内の各文書ページはひとつまたは複数の特徴を有し、前記ひとつまたは複数の特徴はページレイアウト属性を画定し、各文書ページ上の前記ひとつまたは複数の特徴から情報を抽出するステップと、各文書ページ上の前記ひとつまたは複数の特徴に関する特徴ベクトルを構築するステップと、各特徴に特徴重みを割り当てるステップと、前記特徴重みと前記特徴ベクトルに基づいて距離関数を計算するステップと、前記距離関数を使用して前記文書ページ集合をクラスタリングするステップと、を含む。【選択図】図4
Claim (excerpt):
文書ページ集合に関して生成されたクラスタリングを評価する方法において、 文書ページ集合を取得するステップと、前記集合内の各文書ページはひとつまたは複数の特徴を有し、前記ひとつまたは複数の特徴はページレイアウト属性を画定し、 前記集合から文書ページのサンプルを選択するステップと、 前記文書ページサンプルに関する基準クラスタリングを計算するステップと、 前記サンプル内の各文書ページ上の前記ひとつまたは複数の特徴から情報を抽出するステップと、 各文書ページ上の前記ひとつまたは複数の特徴に関する特徴ベクトルを構築するステップと、 各特徴に特徴重みを割り当てるステップと、 前記文書ページサンプル内のいずれか2ページ間の距離関数を、前記特徴重みと前記特徴ベクトルに基づいて計算するステップと、 前記距離関数をクラスタリングアルゴリズムの中で使用して前記文書ページサンプルをクラスタリングし、前記文書ページサンプルに関して生成されたクラスタリングを取得するステップと、 前記基準ステップを前記生成されたクラスタリングと比較するステップと、 を含むことを特徴とする方法。
IPC (2):
G06F 17/30 ,  G06K 9/20
FI (4):
G06F17/30 210D ,  G06F17/30 170A ,  G06F17/30 170B ,  G06K9/20 340C
F-Term (11):
5B029AA01 ,  5B029BB02 ,  5B029CC13 ,  5B029CC18 ,  5B029CC21 ,  5B029CC23 ,  5B029CC26 ,  5B075ND03 ,  5B075ND06 ,  5B075NR12 ,  5B075UU06
Patent cited by the Patent:
Cited by applicant (5)
  • 米国特許第5,619,709号明細書
  • 米国特許第6,542,635号明細書
  • 米国特許第6,598,054号明細書
Show all
Cited by examiner (4)
Show all

Return to Previous Page