Pat
J-GLOBAL ID:200903038733382425
文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム
Inventor:
,
,
,
Applicant, Patent owner:
,
Agent (3):
三好 秀和
, 高橋 俊一
, 小西 恵
Gazette classification:公開公報
Application number (International application number):2005319454
Publication number (International publication number):2007128224
Application date: Nov. 02, 2005
Publication date: May. 24, 2007
Summary:
【課題】 大量の文書テキスト、殊に既存の日本語文書テキストに対してキーワードを簡易且つ自動的に抽出し、該文書テキストに対して付与し、利用者による文書テキスト検索を容易化する。【解決手段】 日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別部(131)と、抽出された文字列の出現頻度をカウントする文字列出現頻度カウント部(132、134)と、日本語文書テキスト内の各文字列の総数に対して所定比率以上の出現頻度を有する文字列をキーワードとして得るキーワード生成部(133,135)とを具備する。【選択図】 図1
Claim (excerpt):
入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別部と、
抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現頻度をカウントする文字列出現頻度カウント部と、
前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第1の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で第2の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得るキーワード生成部と、
前記得られたキーワードと前記入力された日本語文書テキストとを対応付けるキーワード管理部と、
前記対応付けられたキーワード及び前記日本語文書テキストとを格納する文書格納部とを具備する
ことを特徴とする文書インデキシングサーバ装置。
IPC (1):
FI (3):
G06F17/30 210A
, G06F17/30 170A
, G06F17/30 340B
F-Term (6):
5B075ND03
, 5B075NK21
, 5B075NK31
, 5B075NR05
, 5B075PR04
, 5B075UU05
Patent cited by the Patent:
Cited by applicant (2)
Cited by examiner (9)
-
テキスト検索装置
Gazette classification:公開公報
Application number:特願平5-346643
Applicant:キヤノン株式会社
-
特開昭61-151738
-
特開昭63-217418
-
特開昭61-248160
-
データベースに対するデータの登録および検索を支援する装置、方法
Gazette classification:公開公報
Application number:特願2002-127699
Applicant:東洋エンジニアリング株式会社
-
キーワード検索装置
Gazette classification:公開公報
Application number:特願2000-101952
Applicant:松下電器産業株式会社
-
キーワード自動抽出方法および装置
Gazette classification:公開公報
Application number:特願平7-126524
Applicant:日本電信電話株式会社
-
文書処理装置および方法
Gazette classification:公開公報
Application number:特願平5-063421
Applicant:オムロン株式会社
-
ファイル検索管理用のキーワードデータベースファイル作成方法および装置
Gazette classification:公開公報
Application number:特願平6-321702
Applicant:新日本製鐵株式会社
Show all
Return to Previous Page