特許
J-GLOBAL ID:201103051899224474

文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム

発明者:
出願人/特許権者:
代理人 (3件): 三好 秀和 ,  高橋 俊一 ,  小西 恵
公報種別:特許公報
出願番号(国際出願番号):特願2006-099401
公開番号(公開出願番号):特開2007-272699
特許番号:特許第4362492号
出願日: 2006年03月31日
公開日(公表日): 2007年10月18日
請求項(抜粋):
【請求項1】入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別部と、 抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現回数をカウントする文字列出現回数カウント部と、 前記出現回数がカウントされた文字列のうち、前記入力された日本語文書テキスト内で、第1の所定比率或いは第1の所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で、前記第1の所定比率より大きい第2の所定比率或いは前記第1の所定出現回数より小さい第2の所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして抽出するキーワード生成部と、 前記キーワードのそれぞれについて、前記入力された日本語文書テキスト内で、前記キーワードの出現回数と、当該キーワードと同一文字種別に属する抽出されたキーワードの最小出現回数との差分を重みとして算出する重み算出部と、 前記重みを前記キーワードに付加して得られる重み付きキーワードと前記入力された日本語文書テキストとを対応付けるキーワード管理部と、 前記対応付けられた重み付きキーワード及び前記日本語文書テキストとを格納する文書格納部と、 入力されたキーワードと、前記文書格納部に格納された日本語文書テキストに対応付けられた重み付きキーワードとを比較し、前記入力されたキーワードと少なくとも部分的に一致する重み付きキーワードを識別し、前記日本語文書テキストについて、前記一致するキーワードに付加された重みの総和を一致度として得、該一致度が最大になるか又は前記一致度が所定値以上である日本語文書テキストを選択して、クライアント装置に送出するキーワード一致度算出部とを具備する ことを特徴とする文書インデキシングサーバ装置。
IPC (1件):
G06F 17/30 ( 200 6.01)
FI (3件):
G06F 17/30 210 A ,  G06F 17/30 210 D ,  G06F 17/30 350 C
引用特許:
出願人引用 (13件)
全件表示
審査官引用 (7件)
全件表示

前のページに戻る