Pat
J-GLOBAL ID:200903038733382425

文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム

Inventor:
Applicant, Patent owner:
Agent (3): 三好 秀和 ,  高橋 俊一 ,  小西 恵
Gazette classification:公開公報
Application number (International application number):2005319454
Publication number (International publication number):2007128224
Application date: Nov. 02, 2005
Publication date: May. 24, 2007
Summary:
【課題】 大量の文書テキスト、殊に既存の日本語文書テキストに対してキーワードを簡易且つ自動的に抽出し、該文書テキストに対して付与し、利用者による文書テキスト検索を容易化する。【解決手段】 日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別部(131)と、抽出された文字列の出現頻度をカウントする文字列出現頻度カウント部(132、134)と、日本語文書テキスト内の各文字列の総数に対して所定比率以上の出現頻度を有する文字列をキーワードとして得るキーワード生成部(133,135)とを具備する。【選択図】 図1
Claim (excerpt):
入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別部と、 抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現頻度をカウントする文字列出現頻度カウント部と、 前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第1の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で第2の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得るキーワード生成部と、 前記得られたキーワードと前記入力された日本語文書テキストとを対応付けるキーワード管理部と、 前記対応付けられたキーワード及び前記日本語文書テキストとを格納する文書格納部とを具備する ことを特徴とする文書インデキシングサーバ装置。
IPC (1):
G06F 17/30
FI (3):
G06F17/30 210A ,  G06F17/30 170A ,  G06F17/30 340B
F-Term (6):
5B075ND03 ,  5B075NK21 ,  5B075NK31 ,  5B075NR05 ,  5B075PR04 ,  5B075UU05
Patent cited by the Patent:
Cited by applicant (2) Cited by examiner (9)
Show all

Return to Previous Page