特許
J-GLOBAL ID:200903059050255921

テキストマイニング装置及びテキスト分析方法

発明者:
出願人/特許権者:
代理人 (1件): 工藤 実
公報種別:公開公報
出願番号(国際出願番号):特願2004-098524
公開番号(公開出願番号):特開2005-284776
出願日: 2004年03月30日
公開日(公表日): 2005年10月13日
要約:
【課題】 大量の自然言語データに含まれる話題を抽出する。【解決手段】 複数の回答者から収集された自然言語によるテキストデータのなかから、二人以上の回答者のテキストデータに含まれ所定の長さよりも長いテキストデータをエントリとして抽出する。抽出されたエントリを適当なカテゴリー(上位概念)に対応づけて格納するシソーラスデータベースを作成する。シソーラスデータベースが作成された後、複数の回答者から得られた大量のテキストデータからシソーラスデータベースにエントリとして含まれる言葉を検出して、その言葉の出現回数を、該エントリを含むカテゴリーの出現頻度としてカウントする。各々の回答者の回答におけるカテゴリー間の出現頻度の相関係数を算出する。その相関係数の行列から、因子分析により因子負荷量の行列を算出し、魚骨図を出力する。【選択図】図1
請求項(抜粋):
複数のテキストデータを収集するテキストデータ収集部と、 収集された前記テキストデータから複数の文字列を抽出する文字列抽出部と、 複数のカテゴリーと、前記複数のカテゴリーの各々に包摂される少なくとも1つのキーワードとを格納するシソーラスデータベースと、 前記複数の文字列と前記キーワードとを照合して一致した個数を、前記シソーラスデータベースにおいて前記キーワードを包摂する前記カテゴリーのカテゴリー別頻度としてカウントするカテゴリー別頻度算出部と、 前記カテゴリー別頻度の相互の相関係数を算出する相関係数算出部と、 前記相関係数に対して因子分析を行い少なくとも1つの因子と前記因子に対応する前記カテゴリーの因子負荷量とを算出する因子分析部 とを具備する テキストマイニング装置。
IPC (1件):
G06F17/30
FI (3件):
G06F17/30 220Z ,  G06F17/30 170A ,  G06F17/30 370A
Fターム (11件):
5B075ND03 ,  5B075NK32 ,  5B075NR12 ,  5B075NR20 ,  5B075NS10 ,  5B075PP24 ,  5B075PQ02 ,  5B075PQ12 ,  5B075PR04 ,  5B075QP01 ,  5B075UU06
引用特許:
出願人引用 (2件) 審査官引用 (7件)
全件表示

前のページに戻る