Pat
J-GLOBAL ID:200903008295519092

キーワード抽出装置

Inventor:
Applicant, Patent owner:
Agent (1): 西野 卓嗣
Gazette classification:公開公報
Application number (International application number):1992335965
Publication number (International publication number):1994187373
Application date: Dec. 16, 1992
Publication date: Jul. 08, 1994
Summary:
【要約】【目的】 本発明は、キーワード候補の同義関係、及び部分一致関係を考慮して、各々の関係となるキーワード候補を夫々包括的に取り扱って、その候補の出現頻度の算出を行うことを目的とする。【構成】 本発明は、キーワード抽出の対象となる文書を構成する各文字毎に対応付けられた文字コードに基づいて、文書中の連続して隣接する少なくとも2個以上の語が漢字、片仮名、アルファベット、長音又は数字の任意の組み合わせである場合に、それらの連続する語をキーワード候補として抽出し、出現頻度算出部は、部分一致判定部によって判定された部分一致関係となるキーワード候補を、また同義語判定部によって判定された同義関係となるキーワード候補を夫々包括的に取り扱って出現頻度を算出することを特徴とする。
Claim (excerpt):
キーワード抽出の対象となる文書を読み込み、該文書を構成する各文字を文字コードに変換する文書読み込み部と、該文書読み込み部によって変換された各文字の文字コードに基づいて、該文字を漢字、片仮名、平仮名、アルファベット、長音又は数字等の語毎に区分けを行う語切り出し部と、該語切り出し部によって区分けされた語のうち、連続して隣接する少なくとも2個以上の語が漢字、片仮名、アルファベット、長音又は数字の任意の組み合わせである場合に、それらの連続する語をキーワード候補として抽出するキーワード候補抽出部と、該キーワード候補抽出部によって抽出されたキーワード候補同士の部分一致関係を判定する部分一致判定部と、同義語を格納している同義語辞書と、該同義語辞書に格納された同義語に基づいて、上記キーワード候補抽出部によって抽出されたキーワード候補同士の同義関係を判定する同義語判定部と、上記キーワード候補の出現頻度を算出する出現頻度算出部と、該出現頻度算出部によって算出された出現頻度に基づいて、出現頻度の上位に位置するキーワード候補をキーワードとする高頻度語抽出部と、を具備し、上記出現頻度算出部は、上記部分一致判定部によって判定された部分一致関係となるキーワード候補と、上記同義語判定部によって判定された同義関係となるキーワード候補とを夫々包括的に取り扱って出現頻度を算出することを特徴とするキーワード抽出装置。
Patent cited by the Patent:
Cited by examiner (4)
  • 特開昭64-028770
  • 特開昭64-041964
  • 特開平1-217623
Show all

Return to Previous Page