特許
J-GLOBAL ID:201103042511129891

特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム

発明者:
出願人/特許権者:
代理人 (2件): 志賀 正武 ,  村山 靖彦
公報種別:公開公報
出願番号(国際出願番号):特願2010-024718
公開番号(公開出願番号):特開2011-164791
出願日: 2010年02月05日
公開日(公表日): 2011年08月25日
要約:
【課題】特定のカテゴリに対応する適切な特徴語を効率的に抽出する。【解決手段】複数の文書データに含まれる単語対が共起する文書データの数を示す第1の出現頻度と、指定カテゴリが対応付けられた複数の文書データのうち、単語対が共起する文書データの数を示す第2の出現頻度とを算出し、第2の出現頻度から第1の出現頻度を除算した値を共起度として算出し、単語をノードとし、共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成し、生成した行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出し、単語毎のクラスタに対する帰属度を算出し、閾値を超える帰属度をもつ複数のノードを指定カテゴリの特徴を表す特徴語として抽出する。【選択図】図1
請求項(抜粋):
複数の単語が含まれる複数の文書データと、当該文書データに含まれる前記単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、 複数の前記文書データ毎に、当該文書データに含まれる複数の前記単語が対応付けられて記憶される文書毎単語リスト記憶部と、 前記複数の文書データに含まれる前記単語のペアである単語対が共起する文書データの数を示す第1の出現頻度と、複数の前記カテゴリのうち定められた指定カテゴリが対応付けられた複数の前記文書データのうち、前記単語対が共起する文書データの数を示す第2の出現頻度とを算出し、算出した第2の出現頻度から第1の出現頻度を除算した値を、前記単語対の単語間の関連の強さを示す共起度として算出し、前記単語をノードとし、前記共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成する単語処理部と、 前記単語処理部によって生成された前記行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するクラスタ抽出部と、 前記固有ベクトルにおける最大要素と、前記ノードに対応する要素とに基づいて、前記単語毎の前記クラスタに対する帰属度を算出する帰属度算出部と、 前記帰属度と、予め定められた閾値とを比較して、当該閾値を超える帰属度をもつ複数の前記ノードを前記指定カテゴリの特徴を表す特徴語として抽出する特徴語抽出部と、 を備えることを特徴とする特徴語抽出装置。
IPC (1件):
G06F 17/30
FI (2件):
G06F17/30 210A ,  G06F17/30 210D
Fターム (3件):
5B075NK32 ,  5B075NR12 ,  5B075UU06

前のページに戻る