Pat
J-GLOBAL ID:200903059050255921

テキストマイニング装置及びテキスト分析方法

Inventor:
Applicant, Patent owner:
Agent (1): 工藤 実
Gazette classification:公開公報
Application number (International application number):2004098524
Publication number (International publication number):2005284776
Application date: Mar. 30, 2004
Publication date: Oct. 13, 2005
Summary:
【課題】 大量の自然言語データに含まれる話題を抽出する。【解決手段】 複数の回答者から収集された自然言語によるテキストデータのなかから、二人以上の回答者のテキストデータに含まれ所定の長さよりも長いテキストデータをエントリとして抽出する。抽出されたエントリを適当なカテゴリー(上位概念)に対応づけて格納するシソーラスデータベースを作成する。シソーラスデータベースが作成された後、複数の回答者から得られた大量のテキストデータからシソーラスデータベースにエントリとして含まれる言葉を検出して、その言葉の出現回数を、該エントリを含むカテゴリーの出現頻度としてカウントする。各々の回答者の回答におけるカテゴリー間の出現頻度の相関係数を算出する。その相関係数の行列から、因子分析により因子負荷量の行列を算出し、魚骨図を出力する。【選択図】図1
Claim (excerpt):
複数のテキストデータを収集するテキストデータ収集部と、 収集された前記テキストデータから複数の文字列を抽出する文字列抽出部と、 複数のカテゴリーと、前記複数のカテゴリーの各々に包摂される少なくとも1つのキーワードとを格納するシソーラスデータベースと、 前記複数の文字列と前記キーワードとを照合して一致した個数を、前記シソーラスデータベースにおいて前記キーワードを包摂する前記カテゴリーのカテゴリー別頻度としてカウントするカテゴリー別頻度算出部と、 前記カテゴリー別頻度の相互の相関係数を算出する相関係数算出部と、 前記相関係数に対して因子分析を行い少なくとも1つの因子と前記因子に対応する前記カテゴリーの因子負荷量とを算出する因子分析部 とを具備する テキストマイニング装置。
IPC (1):
G06F17/30
FI (3):
G06F17/30 220Z ,  G06F17/30 170A ,  G06F17/30 370A
F-Term (11):
5B075ND03 ,  5B075NK32 ,  5B075NR12 ,  5B075NR20 ,  5B075NS10 ,  5B075PP24 ,  5B075PQ02 ,  5B075PQ12 ,  5B075PR04 ,  5B075QP01 ,  5B075UU06
Patent cited by the Patent:
Cited by applicant (2) Cited by examiner (7)
Show all

Return to Previous Page