特許
J-GLOBAL ID:200903030151481088

文書類似度計算装置および文書分類装置

発明者:
出願人/特許権者:
代理人 (1件): 石井 康夫 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平7-281918
公開番号(公開出願番号):特開平9-128402
出願日: 1995年10月30日
公開日(公表日): 1997年05月16日
要約:
【要約】【目的】 情報の内容・主題を反映して文書データの類似度を計算することができる文書類似度計算装置、またこれに基づき情報の分類を行なうことができる文書分類装置を提供する。【構成】 主題関係表現抽出部2は、文書データ記憶部1からひとつの文書データが読み出し、文書データのテキスト部分を形態素解析する。形態素解析結果から、複数の語句とその間の関係を表わす関係表現を抽出する。抽出された関係表現のうち、関係表現を構成する自立語群が同じで、矛盾しない関係を持つものを集め、頻度を数える。得られた頻度に基づき、所定の基準に従って、その文書データの主題を表わす関係表現を選択する。類似度計算部3は、任意の2つの文書データの類似度を、主題関係表現抽出部2で抽出された主題関係表現の類似度に基づいて計算し、記憶部4に記憶する。
請求項(抜粋):
少なくともテキスト情報を含むような文書データを入力する文書データ入力手段と、該文書データ入力手段から入力された各文書データのテキスト部分から複数の語句とその間の関係からなる関係表現のうち主題を表わす関係表現を抽出する主題関係表現抽出手段手段と、任意の2つの文書データの類似度を前記主題を表わす関係表現の類似度に基づいて計算する類似度計算手段を有することを特徴とする文書類似度計算装置。
IPC (2件):
G06F 17/30 ,  G06F 17/27
FI (3件):
G06F 15/40 370 A ,  G06F 15/38 M ,  G06F 15/403 350 C
引用特許:
審査官引用 (3件)
  • 文書分類装置
    公報種別:公開公報   出願番号:特願平5-259809   出願人:シャープ株式会社
  • 特開平3-172966
  • キーワード自動抽出装置
    公報種別:公開公報   出願番号:特願平5-093655   出願人:日本電気株式会社, 日本電気ソフトウェア株式会社

前のページに戻る