Pat
J-GLOBAL ID:200903088684457020

テキスト情報の特徴情報作成方法及び特徴情報作成プログラムを記録した記録媒体

Inventor:
Applicant, Patent owner:
Agent (1): 鈴木 誠
Gazette classification:公開公報
Application number (International application number):1998281818
Publication number (International publication number):2000112974
Application date: Oct. 02, 1998
Publication date: Apr. 21, 2000
Summary:
【要約】【課題】 人の理解及び操作しやすい形として、テキストを特徴づける特徴情報(インデックス)を実現する。【解決手段】 テキストの特徴を多次元多値ベクトルで表現し、初期化時において、軸の数と各軸の意味(「事象」、「概念」、「主題」など)を決定し、そのサンプルとなるようなテキストを幾つか選択する。通常時においては、各軸のサンプルとして選択されたテキストの集合と、新たに特徴情報を計算したいテキストとの類似度をTFIDFに類似した手法を用いて計算し、その結果を用いてテキストに対する各軸の値を決定する。
Claim (excerpt):
テキストを特徴づける特徴情報を作成する方法であって、多数のサンプルテキストから単語とその出現頻度を抽出し、Semi IDF(k)=f(n(k),N)Nはサンプルテキストの数n(k)は単語kが使用されているサンプルテキストの数を計算して、単語ごとに前記Semi IDFを重み付けした単語集を作成するステップと、前記単語集を用いて、テキストXに対する疑似TFIDF値を、TF(X,k)=単語kがテキストXで使用される回数、疑似TFIDF(X,k)=TF(X,k)×Semi IDF(k)として、単語の数が次元となる多次元多値ベクトル(以下、疑似TFIDFベクトルと呼ぶ)を定義し、特徴情報の軸の数と各軸の意味を決定し、各軸に対応するサンプルテキストをそれぞれ複数選択し、各軸の特徴を示すベクトル(以下、軸ベクトルと呼ぶ)、i軸ベクトル=g(i軸のサンプルの疑似TFIDFベクトルの集合)g(A):n次元ベクトルの集合→n次元ベクトルとなる任意の関数を作成するステップと、対象となるテキストについて疑似TFIDFベクトルを計算し、該疑似TFIDFベクトルと前記各軸ベクトルとを比較して、該テキストの特徴情報を決定するステップと、を有することを特徴とするテキスト情報の特徴情報作成方法。
FI (3):
G06F 15/401 310 C ,  G06F 15/40 370 A ,  G06F 15/401 320 A
F-Term (7):
5B075ND03 ,  5B075NK06 ,  5B075NK31 ,  5B075PR06 ,  5B075QM08 ,  5B075QS01 ,  5B075UU06

Return to Previous Page