特許
J-GLOBAL ID:200903008295519092

キーワード抽出装置

発明者:
出願人/特許権者:
代理人 (1件): 西野 卓嗣
公報種別:公開公報
出願番号(国際出願番号):特願平4-335965
公開番号(公開出願番号):特開平6-187373
出願日: 1992年12月16日
公開日(公表日): 1994年07月08日
要約:
【要約】【目的】 本発明は、キーワード候補の同義関係、及び部分一致関係を考慮して、各々の関係となるキーワード候補を夫々包括的に取り扱って、その候補の出現頻度の算出を行うことを目的とする。【構成】 本発明は、キーワード抽出の対象となる文書を構成する各文字毎に対応付けられた文字コードに基づいて、文書中の連続して隣接する少なくとも2個以上の語が漢字、片仮名、アルファベット、長音又は数字の任意の組み合わせである場合に、それらの連続する語をキーワード候補として抽出し、出現頻度算出部は、部分一致判定部によって判定された部分一致関係となるキーワード候補を、また同義語判定部によって判定された同義関係となるキーワード候補を夫々包括的に取り扱って出現頻度を算出することを特徴とする。
請求項(抜粋):
キーワード抽出の対象となる文書を読み込み、該文書を構成する各文字を文字コードに変換する文書読み込み部と、該文書読み込み部によって変換された各文字の文字コードに基づいて、該文字を漢字、片仮名、平仮名、アルファベット、長音又は数字等の語毎に区分けを行う語切り出し部と、該語切り出し部によって区分けされた語のうち、連続して隣接する少なくとも2個以上の語が漢字、片仮名、アルファベット、長音又は数字の任意の組み合わせである場合に、それらの連続する語をキーワード候補として抽出するキーワード候補抽出部と、該キーワード候補抽出部によって抽出されたキーワード候補同士の部分一致関係を判定する部分一致判定部と、同義語を格納している同義語辞書と、該同義語辞書に格納された同義語に基づいて、上記キーワード候補抽出部によって抽出されたキーワード候補同士の同義関係を判定する同義語判定部と、上記キーワード候補の出現頻度を算出する出現頻度算出部と、該出現頻度算出部によって算出された出現頻度に基づいて、出現頻度の上位に位置するキーワード候補をキーワードとする高頻度語抽出部と、を具備し、上記出現頻度算出部は、上記部分一致判定部によって判定された部分一致関係となるキーワード候補と、上記同義語判定部によって判定された同義関係となるキーワード候補とを夫々包括的に取り扱って出現頻度を算出することを特徴とするキーワード抽出装置。
引用特許:
審査官引用 (8件)
  • 特開昭64-028770
  • 特開昭64-041964
  • 特開平1-217623
全件表示

前のページに戻る