テキストマイニング装置及びテキスト分析方法

発明者： , ,
出願人/特許権者： ,
代理人 (1件)：工藤実
公報種別：公開公報
出願番号（国際出願番号）：特願2004-098524
公開番号（公開出願番号）：特開2005-284776
出願日： 2004年03月30日
公開日（公表日）： 2005年10月13日
要約：

【課題】大量の自然言語データに含まれる話題を抽出する。【解決手段】複数の回答者から収集された自然言語によるテキストデータのなかから、二人以上の回答者のテキストデータに含まれ所定の長さよりも長いテキストデータをエントリとして抽出する。抽出されたエントリを適当なカテゴリー(上位概念)に対応づけて格納するシソーラスデータベースを作成する。シソーラスデータベースが作成された後、複数の回答者から得られた大量のテキストデータからシソーラスデータベースにエントリとして含まれる言葉を検出して、その言葉の出現回数を、該エントリを含むカテゴリーの出現頻度としてカウントする。各々の回答者の回答におけるカテゴリー間の出現頻度の相関係数を算出する。その相関係数の行列から、因子分析により因子負荷量の行列を算出し、魚骨図を出力する。【選択図】図1

請求項（抜粋）：

複数のテキストデータを収集するテキストデータ収集部と、収集された前記テキストデータから複数の文字列を抽出する文字列抽出部と、複数のカテゴリーと、前記複数のカテゴリーの各々に包摂される少なくとも1つのキーワードとを格納するシソーラスデータベースと、前記複数の文字列と前記キーワードとを照合して一致した個数を、前記シソーラスデータベースにおいて前記キーワードを包摂する前記カテゴリーのカテゴリー別頻度としてカウントするカテゴリー別頻度算出部と、前記カテゴリー別頻度の相互の相関係数を算出する相関係数算出部と、前記相関係数に対して因子分析を行い少なくとも1つの因子と前記因子に対応する前記カテゴリーの因子負荷量とを算出する因子分析部とを具備するテキストマイニング装置。

IPC (1件)：

G06F17/30

FI (3件)：

G06F17/30 220Z , G06F17/30 170A , G06F17/30 370A

Fターム (11件)：

5B075ND03 , 5B075NK32 , 5B075NR12 , 5B075NR20 , 5B075NS10 , 5B075PP24 , 5B075PQ02 , 5B075PQ12 , 5B075PR04 , 5B075QP01 , 5B075UU06

引用特許：

出願人引用 (2件)

情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
公報種別：公開公報出願番号：特願平10-344309 出願人：三菱電機株式会社
自由記述回答の解析法、自由記述文書からのキーワード抽出法、および自由記述文書の解析支援法
公報種別：公開公報出願番号：特願2001-360968 出願人：高根定信

審査官引用 (7件)

自由記述回答の解析法、自由記述文書からのキーワード抽出法、および自由記述文書の解析支援法
公報種別：公開公報出願番号：特願2001-360968 出願人：高根定信
文書処理装置及びそのプログラム記憶媒体
公報種別：公開公報出願番号：特願平11-049501 出願人：富士通株式会社
情報処理装置および情報処理方法、並びに情報処理プログラム
公報種別：公開公報出願番号：特願2002-360352 出願人：本田技研工業株式会社, 高根定信

全件表示

前のページに戻る