特許
J-GLOBAL ID:201403016533034801

文書構造解析装置及びプログラム

発明者:
出願人/特許権者:
代理人 (1件): 特許業務法人太陽国際特許事務所
公報種別:公開公報
出願番号(国際出願番号):特願2012-194305
公開番号(公開出願番号):特開2014-049088
出願日: 2012年09月04日
公開日(公表日): 2014年03月17日
要約:
【課題】構造化文書における複数の要素をクラスタリングすることにより、構造化文書の要素を精度良くクラスタリングでき、抽出したい部分を得ることができるようにする。【解決手段】階層構造解析部10により、解析対象となる少なくとも1つの構造化文書の各々について、構造化文書の要素の階層構造を解析する。位置情報解析部12によって、解析された構造化文書を表示したときの構造化文書の各要素の表示位置を解析する。そして、構造類似度計算部14によって、要素の構造に関する構造類似度を算出する。そして、位置類似度計算部16によって、要素の表示位置に関する位置類似度を算出する。そして、クラスタリング部20によって、構造類似度計算部14によって算出された構造類似度と、位置類似度計算部16によって算出された位置類似度とに基づいて、少なくとも1つの構造化文書における複数の要素をクラスタリングする。【選択図】図1
請求項(抜粋):
解析対象となる少なくとも1つの構造化文書の各々について、前記構造化文書の要素の階層構造を解析する階層構造解析手段と、 前記階層構造解析手段によって解析された構造化文書を表示したときの前記構造化文書の各要素の表示位置を解析する位置情報解析手段と、 前記階層構造解析手段によって解析された解析結果に基づいて、前記少なくとも1つの構造化文書における複数の要素のうちの第1要素と第2要素との間の各々について、前記第1要素及び前記第1要素の子孫の要素と、前記第2要素及び前記第2要素の子孫の要素とを比較して、要素の構造に関する構造類似度を算出する構造類似度計算手段と、 前記位置情報解析手段によって解析された解析結果に基づいて、前記少なくとも1つの構造化文書における複数の要素のうちの2つの要素間の各々について、要素の表示位置に関する位置類似度を算出する位置類似度計算手段と、 前記構造類似度計算手段によって算出された構造類似度と、前記位置類似度計算手段によって算出された位置類似度とに基づいて、前記少なくとも1つの構造化文書における複数の要素をクラスタリングするクラスタリング手段と を含む文書構造解析装置。
IPC (2件):
G06F 17/21 ,  G06F 17/30
FI (2件):
G06F17/21 501T ,  G06F17/30 419A
Fターム (3件):
5B109NH13 ,  5B109NH20 ,  5B109VA02

前のページに戻る