特許
J-GLOBAL ID:200903088684457020

テキスト情報の特徴情報作成方法及び特徴情報作成プログラムを記録した記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 鈴木 誠
公報種別:公開公報
出願番号(国際出願番号):特願平10-281818
公開番号(公開出願番号):特開2000-112974
出願日: 1998年10月02日
公開日(公表日): 2000年04月21日
要約:
【要約】【課題】 人の理解及び操作しやすい形として、テキストを特徴づける特徴情報(インデックス)を実現する。【解決手段】 テキストの特徴を多次元多値ベクトルで表現し、初期化時において、軸の数と各軸の意味(「事象」、「概念」、「主題」など)を決定し、そのサンプルとなるようなテキストを幾つか選択する。通常時においては、各軸のサンプルとして選択されたテキストの集合と、新たに特徴情報を計算したいテキストとの類似度をTFIDFに類似した手法を用いて計算し、その結果を用いてテキストに対する各軸の値を決定する。
請求項(抜粋):
テキストを特徴づける特徴情報を作成する方法であって、多数のサンプルテキストから単語とその出現頻度を抽出し、Semi IDF(k)=f(n(k),N)Nはサンプルテキストの数n(k)は単語kが使用されているサンプルテキストの数を計算して、単語ごとに前記Semi IDFを重み付けした単語集を作成するステップと、前記単語集を用いて、テキストXに対する疑似TFIDF値を、TF(X,k)=単語kがテキストXで使用される回数、疑似TFIDF(X,k)=TF(X,k)×Semi IDF(k)として、単語の数が次元となる多次元多値ベクトル(以下、疑似TFIDFベクトルと呼ぶ)を定義し、特徴情報の軸の数と各軸の意味を決定し、各軸に対応するサンプルテキストをそれぞれ複数選択し、各軸の特徴を示すベクトル(以下、軸ベクトルと呼ぶ)、i軸ベクトル=g(i軸のサンプルの疑似TFIDFベクトルの集合)g(A):n次元ベクトルの集合→n次元ベクトルとなる任意の関数を作成するステップと、対象となるテキストについて疑似TFIDFベクトルを計算し、該疑似TFIDFベクトルと前記各軸ベクトルとを比較して、該テキストの特徴情報を決定するステップと、を有することを特徴とするテキスト情報の特徴情報作成方法。
FI (3件):
G06F 15/401 310 C ,  G06F 15/40 370 A ,  G06F 15/401 320 A
Fターム (7件):
5B075ND03 ,  5B075NK06 ,  5B075NK31 ,  5B075PR06 ,  5B075QM08 ,  5B075QS01 ,  5B075UU06

前のページに戻る