Pat
J-GLOBAL ID:201103051899224474

文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム

Inventor:
Applicant, Patent owner:
Agent (3): 三好 秀和 ,  高橋 俊一 ,  小西 恵
Gazette classification:特許公報
Application number (International application number):2006099401
Publication number (International publication number):2007272699
Patent number:4362492
Application date: Mar. 31, 2006
Publication date: Oct. 18, 2007
Claim (excerpt):
【請求項1】入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別部と、 抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現回数をカウントする文字列出現回数カウント部と、 前記出現回数がカウントされた文字列のうち、前記入力された日本語文書テキスト内で、第1の所定比率或いは第1の所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で、前記第1の所定比率より大きい第2の所定比率或いは前記第1の所定出現回数より小さい第2の所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして抽出するキーワード生成部と、 前記キーワードのそれぞれについて、前記入力された日本語文書テキスト内で、前記キーワードの出現回数と、当該キーワードと同一文字種別に属する抽出されたキーワードの最小出現回数との差分を重みとして算出する重み算出部と、 前記重みを前記キーワードに付加して得られる重み付きキーワードと前記入力された日本語文書テキストとを対応付けるキーワード管理部と、 前記対応付けられた重み付きキーワード及び前記日本語文書テキストとを格納する文書格納部と、 入力されたキーワードと、前記文書格納部に格納された日本語文書テキストに対応付けられた重み付きキーワードとを比較し、前記入力されたキーワードと少なくとも部分的に一致する重み付きキーワードを識別し、前記日本語文書テキストについて、前記一致するキーワードに付加された重みの総和を一致度として得、該一致度が最大になるか又は前記一致度が所定値以上である日本語文書テキストを選択して、クライアント装置に送出するキーワード一致度算出部とを具備する ことを特徴とする文書インデキシングサーバ装置。
IPC (1):
G06F 17/30 ( 200 6.01)
FI (3):
G06F 17/30 210 A ,  G06F 17/30 210 D ,  G06F 17/30 350 C
Patent cited by the Patent:
Cited by examiner (7)
Show all

Return to Previous Page