特許
J-GLOBAL ID:200903059050255921
テキストマイニング装置及びテキスト分析方法
発明者:
,
,
出願人/特許権者:
,
代理人 (1件):
工藤 実
公報種別:公開公報
出願番号(国際出願番号):特願2004-098524
公開番号(公開出願番号):特開2005-284776
出願日: 2004年03月30日
公開日(公表日): 2005年10月13日
要約:
【課題】 大量の自然言語データに含まれる話題を抽出する。【解決手段】 複数の回答者から収集された自然言語によるテキストデータのなかから、二人以上の回答者のテキストデータに含まれ所定の長さよりも長いテキストデータをエントリとして抽出する。抽出されたエントリを適当なカテゴリー(上位概念)に対応づけて格納するシソーラスデータベースを作成する。シソーラスデータベースが作成された後、複数の回答者から得られた大量のテキストデータからシソーラスデータベースにエントリとして含まれる言葉を検出して、その言葉の出現回数を、該エントリを含むカテゴリーの出現頻度としてカウントする。各々の回答者の回答におけるカテゴリー間の出現頻度の相関係数を算出する。その相関係数の行列から、因子分析により因子負荷量の行列を算出し、魚骨図を出力する。【選択図】図1
請求項(抜粋):
複数のテキストデータを収集するテキストデータ収集部と、
収集された前記テキストデータから複数の文字列を抽出する文字列抽出部と、
複数のカテゴリーと、前記複数のカテゴリーの各々に包摂される少なくとも1つのキーワードとを格納するシソーラスデータベースと、
前記複数の文字列と前記キーワードとを照合して一致した個数を、前記シソーラスデータベースにおいて前記キーワードを包摂する前記カテゴリーのカテゴリー別頻度としてカウントするカテゴリー別頻度算出部と、
前記カテゴリー別頻度の相互の相関係数を算出する相関係数算出部と、
前記相関係数に対して因子分析を行い少なくとも1つの因子と前記因子に対応する前記カテゴリーの因子負荷量とを算出する因子分析部
とを具備する
テキストマイニング装置。
IPC (1件):
FI (3件):
G06F17/30 220Z
, G06F17/30 170A
, G06F17/30 370A
Fターム (11件):
5B075ND03
, 5B075NK32
, 5B075NR12
, 5B075NR20
, 5B075NS10
, 5B075PP24
, 5B075PQ02
, 5B075PQ12
, 5B075PR04
, 5B075QP01
, 5B075UU06
引用特許:
出願人引用 (2件)
審査官引用 (7件)
全件表示
前のページに戻る