Pat
J-GLOBAL ID:200903026622516610
特徴語抽出システム及びプログラム
Inventor:
Applicant, Patent owner:
Agent (1):
溝井 章司
Gazette classification:公開公報
Application number (International application number):2009109169
Publication number (International publication number):2009169979
Application date: Apr. 28, 2009
Publication date: Jul. 30, 2009
Summary:
【課題】テキストマイニングに係り、概念辞書に含まれる近概念単語の数を求めることを課題とする。【解決手段】共起頻度算出部102で、文書データ群の中に、組み合わせられた単語がともに出現する頻度を、共起頻度として算出し、それぞれの共起頻度を行列形式で格納する共起頻度表を生成し、特異値分解部104で、共起頻度表を特異値分解し、縮退された次元の意味空間における単語毎の概念ベクトルからなる概念辞書を算出し、近概念単語数算出部3304で、基準単語に対する比較対象単語の概念の差分を算出し、差分が所定の基準より小さくなる比較対象単語の数を計数して、基準単語に対する近概念単語数を求める。【選択図】図33
Claim (excerpt):
以下の要素を有することを特徴とする特徴語抽出システム
(1)文書データ群に含まれる所定範囲群の中に、組み合わせられた単語がともに出現する頻度を、当該単語の組み合わせに係る共起頻度として算出し、複数の単語の組み合わせに係るそれぞれの共起頻度を行列形式で格納する共起頻度表を生成する共起頻度算出部
(2)共起頻度表を特異値分解し、縮退行列として、縮退された次元の意味空間における単語毎の概念ベクトルからなる概念辞書を算出する特異値分解部
(3)概念辞書における単語毎の概念ベクトルに基づいて、基準単語に対する比較対象単語の概念の差分を算出し、当該基準単語に対する比較対象単語の概念の差分が所定の基準より小さくなる比較対象単語の数を計数して、基準単語に対する近概念単語数を求め、基準単語毎の近概念単語数からなる近概念単語数テーブルを生成する近概念単語数算出部。
IPC (2):
FI (2):
G06F17/28 U
, G06F19/00 130
F-Term (5):
5B091AA15
, 5B091AB17
, 5B091CA12
, 5B091CC04
, 5B091CC15
Return to Previous Page