Pat
J-GLOBAL ID:200903059050255921
テキストマイニング装置及びテキスト分析方法
Inventor:
,
,
Applicant, Patent owner:
,
Agent (1):
工藤 実
Gazette classification:公開公報
Application number (International application number):2004098524
Publication number (International publication number):2005284776
Application date: Mar. 30, 2004
Publication date: Oct. 13, 2005
Summary:
【課題】 大量の自然言語データに含まれる話題を抽出する。【解決手段】 複数の回答者から収集された自然言語によるテキストデータのなかから、二人以上の回答者のテキストデータに含まれ所定の長さよりも長いテキストデータをエントリとして抽出する。抽出されたエントリを適当なカテゴリー(上位概念)に対応づけて格納するシソーラスデータベースを作成する。シソーラスデータベースが作成された後、複数の回答者から得られた大量のテキストデータからシソーラスデータベースにエントリとして含まれる言葉を検出して、その言葉の出現回数を、該エントリを含むカテゴリーの出現頻度としてカウントする。各々の回答者の回答におけるカテゴリー間の出現頻度の相関係数を算出する。その相関係数の行列から、因子分析により因子負荷量の行列を算出し、魚骨図を出力する。【選択図】図1
Claim (excerpt):
複数のテキストデータを収集するテキストデータ収集部と、
収集された前記テキストデータから複数の文字列を抽出する文字列抽出部と、
複数のカテゴリーと、前記複数のカテゴリーの各々に包摂される少なくとも1つのキーワードとを格納するシソーラスデータベースと、
前記複数の文字列と前記キーワードとを照合して一致した個数を、前記シソーラスデータベースにおいて前記キーワードを包摂する前記カテゴリーのカテゴリー別頻度としてカウントするカテゴリー別頻度算出部と、
前記カテゴリー別頻度の相互の相関係数を算出する相関係数算出部と、
前記相関係数に対して因子分析を行い少なくとも1つの因子と前記因子に対応する前記カテゴリーの因子負荷量とを算出する因子分析部
とを具備する
テキストマイニング装置。
IPC (1):
FI (3):
G06F17/30 220Z
, G06F17/30 170A
, G06F17/30 370A
F-Term (11):
5B075ND03
, 5B075NK32
, 5B075NR12
, 5B075NR20
, 5B075NS10
, 5B075PP24
, 5B075PQ02
, 5B075PQ12
, 5B075PR04
, 5B075QP01
, 5B075UU06
Patent cited by the Patent:
Cited by applicant (2)
Cited by examiner (7)
Show all
Return to Previous Page