特許
J-GLOBAL ID:200903038733382425
文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム
発明者:
,
,
,
出願人/特許権者:
,
代理人 (3件):
三好 秀和
, 高橋 俊一
, 小西 恵
公報種別:公開公報
出願番号(国際出願番号):特願2005-319454
公開番号(公開出願番号):特開2007-128224
出願日: 2005年11月02日
公開日(公表日): 2007年05月24日
要約:
【課題】 大量の文書テキスト、殊に既存の日本語文書テキストに対してキーワードを簡易且つ自動的に抽出し、該文書テキストに対して付与し、利用者による文書テキスト検索を容易化する。【解決手段】 日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別部(131)と、抽出された文字列の出現頻度をカウントする文字列出現頻度カウント部(132、134)と、日本語文書テキスト内の各文字列の総数に対して所定比率以上の出現頻度を有する文字列をキーワードとして得るキーワード生成部(133,135)とを具備する。【選択図】 図1
請求項(抜粋):
入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別部と、
抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現頻度をカウントする文字列出現頻度カウント部と、
前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第1の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で第2の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得るキーワード生成部と、
前記得られたキーワードと前記入力された日本語文書テキストとを対応付けるキーワード管理部と、
前記対応付けられたキーワード及び前記日本語文書テキストとを格納する文書格納部とを具備する
ことを特徴とする文書インデキシングサーバ装置。
IPC (1件):
FI (3件):
G06F17/30 210A
, G06F17/30 170A
, G06F17/30 340B
Fターム (6件):
5B075ND03
, 5B075NK21
, 5B075NK31
, 5B075NR05
, 5B075PR04
, 5B075UU05
引用特許:
出願人引用 (2件)
審査官引用 (9件)
-
テキスト検索装置
公報種別:公開公報
出願番号:特願平5-346643
出願人:キヤノン株式会社
-
特開昭61-151738
-
特開昭63-217418
全件表示
前のページに戻る