特許
J-GLOBAL ID:200903066528413443

キーワード抽出

発明者:
出願人/特許権者:
代理人 (1件): 五十嵐 孝雄 (外3名)
公報種別:公開公報
出願番号(国際出願番号):特願2001-036577
公開番号(公開出願番号):特開2002-245061
出願日: 2001年02月14日
公開日(公表日): 2002年08月30日
要約:
【要約】【課題】 ウェッブページのような大量のテキストデータに対する検索を容易かつ精度良く行なうデータベースを構築することは困難であった。【解決手段】 ひとまとまりのテキストデータであるウェッブページのデータを、巡回エンジンで収集し、これを形態素解析して、単語を抽出する。これらの単語に対して、偏った出現頻度であるTFIDFを計算し、所定上の単語のみをキーワードとして取り出す。これらの単語を用いて、そのテキストデータを表わすベクトルを演算し、データベースを構築する。検索時には、検索用の文章を入力し、これからキーワードを切り出し、そのキーワードが表わすベクトルと、データベースとを比較して、類似のサイトを出力する。単純な単語の比較ではなく、文書を特長付ける単語により表現されたベクトルでの類似を判定でき、検索の精度を高くすることができる。
請求項(抜粋):
一定のまとまりを有するテキストデータから、該テキストデータに所定の処理を行なうためのキーワードを抽出する方法であって、前記一定のまとまりを有するテキストデータを、形態素解析して単語を抽出し、該抽出した単語が、前記テキストデータの中で偏って頻出する程度を評価し、該評価値が所定以上の単語を、前記テキストデータにおけるキーワードとして抽出するキーワード抽出方法。
IPC (5件):
G06F 17/30 210 ,  G06F 17/30 ,  G06F 17/30 170 ,  G06F 17/30 220 ,  G06F 17/30 230
FI (5件):
G06F 17/30 210 A ,  G06F 17/30 210 D ,  G06F 17/30 170 A ,  G06F 17/30 220 A ,  G06F 17/30 230 Z
Fターム (8件):
5B075NK14 ,  5B075NK24 ,  5B075NK32 ,  5B075NK39 ,  5B075NR03 ,  5B075NR12 ,  5B075NS01 ,  5B075UU06
引用特許:
審査官引用 (8件)
全件表示

前のページに戻る