特許
J-GLOBAL ID:201103054634860572

テキストマイニングにおける文書の特徴量抽出方法及びその装置

発明者:
出願人/特許権者:
代理人 (1件): 谷 義一 (外1名)
公報種別:特許公報
出願番号(国際出願番号):特願2000-197421
公開番号(公開出願番号):特開2002-014982
特許番号:特許第3524846号
出願日: 2000年06月29日
公開日(公表日): 2002年01月18日
請求項(抜粋):
【請求項1】 文書の内容を代表する索引語に対応するベクトルからなる単語-文書行列を用いて前記文書の特徴量を抽出するテキストマイニングにおける文書の特徴量抽出方法であって、前記単語-文書行列の各要素には前記索引語に対する寄与分が作用し、コストを最小化する最急降下法に基いて互いに関連した文書および単語が近接する前記特徴量の空間を張る基底べクトルを計算する基底ベクトル計算ステップと、前記単語-文書行列及び前記基底べクトルを用いて前記特徴量を正規化するためのパラメータを計算し、該パラメータに基き前記特徴量を抽出する特徴量抽出ステップと、前記単語-文書行列を更新して前記基底べクトルを適用しない前記単語-文書行列と適用した前記単語-文書行列との差分にする単語-文書行列更新ステップとを備え、前記単語-文書行列XをX=[x1,x2,...,xd]、ここでxj=[xj1,xj2,...,xjt]′、E=[e1,e2,...,ed]、ej=[ej1,ej2,...,ejt]′=[xj1,xj2,...,xjt]′、前記単語-行列更新ステップにおけるEのi番目の処理結果E(i)を;;数1::ここで、E(i)=[e1(i),e2(i),...,ed(i)]、E(i)の各要素ej(i)をej(i)=[ej1(i),ej2(i),...,ejt(i)]′、前記基底ベクトル計算ステップにおけるk回目の繰り返しでのwiの値をwi(k)=[wi1(k),wi2(k),...,wit(k)]′、ベクトル;;数2::のm番目の要素を;;数3::と定義した場合、前記基底ベクトル計算ステップは、前記コストに;;数4::を使用して前記基底ベクトルを計算することを特徴とするテキストマイニングにおける文書の特徴量抽出方法。
IPC (2件):
G06F 17/30 210 ,  G06F 17/30 170
FI (2件):
G06F 17/30 210 A ,  G06F 17/30 170 A

前のページに戻る