Pat
J-GLOBAL ID:200903066528413443

キーワード抽出

Inventor:
Applicant, Patent owner:
Agent (1): 五十嵐 孝雄 (外3名)
Gazette classification:公開公報
Application number (International application number):2001036577
Publication number (International publication number):2002245061
Application date: Feb. 14, 2001
Publication date: Aug. 30, 2002
Summary:
【要約】【課題】 ウェッブページのような大量のテキストデータに対する検索を容易かつ精度良く行なうデータベースを構築することは困難であった。【解決手段】 ひとまとまりのテキストデータであるウェッブページのデータを、巡回エンジンで収集し、これを形態素解析して、単語を抽出する。これらの単語に対して、偏った出現頻度であるTFIDFを計算し、所定上の単語のみをキーワードとして取り出す。これらの単語を用いて、そのテキストデータを表わすベクトルを演算し、データベースを構築する。検索時には、検索用の文章を入力し、これからキーワードを切り出し、そのキーワードが表わすベクトルと、データベースとを比較して、類似のサイトを出力する。単純な単語の比較ではなく、文書を特長付ける単語により表現されたベクトルでの類似を判定でき、検索の精度を高くすることができる。
Claim (excerpt):
一定のまとまりを有するテキストデータから、該テキストデータに所定の処理を行なうためのキーワードを抽出する方法であって、前記一定のまとまりを有するテキストデータを、形態素解析して単語を抽出し、該抽出した単語が、前記テキストデータの中で偏って頻出する程度を評価し、該評価値が所定以上の単語を、前記テキストデータにおけるキーワードとして抽出するキーワード抽出方法。
IPC (5):
G06F 17/30 210 ,  G06F 17/30 ,  G06F 17/30 170 ,  G06F 17/30 220 ,  G06F 17/30 230
FI (5):
G06F 17/30 210 A ,  G06F 17/30 210 D ,  G06F 17/30 170 A ,  G06F 17/30 220 A ,  G06F 17/30 230 Z
F-Term (8):
5B075NK14 ,  5B075NK24 ,  5B075NK32 ,  5B075NK39 ,  5B075NR03 ,  5B075NR12 ,  5B075NS01 ,  5B075UU06
Patent cited by the Patent:
Cited by examiner (8)
Show all

Return to Previous Page