特許
J-GLOBAL ID:200903063711849367

文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム

発明者:
出願人/特許権者:
代理人 (3件): 三好 秀和 ,  高橋 俊一 ,  小西 恵
公報種別:公開公報
出願番号(国際出願番号):特願2006-099401
公開番号(公開出願番号):特開2007-272699
出願日: 2006年03月31日
公開日(公表日): 2007年10月18日
要約:
【課題】大量の文書テキストに対してキーワードを簡易且つ自動的に抽出し、該文書テキストに対して付与し、フリーワード文書テキスト検索、文書自動分類を容易化する。【解決手段】日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別部(131)と、抽出された文字列の出現頻度をカウントする文字列出現頻度カウント部(132、134)と、日本語文書テキスト内の各文字列の総数に対して所定比率以上の出現頻度を有する文字列をキーワードとして得、出現頻度のみから算出される重みを付加して重み付きキーワードを得るキーワード生成部(133,135)とを具備する。【選択図】図1
請求項(抜粋):
入力された日本語文書テキストから、該テキストを構成する文字の文字種別を文字コードによって識別することにより、漢字文字列及びカタカナ文字列をそれぞれ抽出する文字コード識別部と、 抽出された前記漢字文字列及び前記カタカナ文字列のうち、2文字以上連続する文字列の出現頻度をカウントする文字列出現頻度カウント部と、 前記出現頻度がカウントされた文字列のうち、前記入力された日本語文書テキスト内で第1の所定比率或いは所定出現回数以上の出現頻度を有する漢字文字列を、前記日本語文書テキスト内で第2の所定比率或いは所定出現回数以上の出現頻度を有するカタカナ文字列を、それぞれキーワードとして得るキーワード生成部と、 前記キーワードのそれぞれについて、その出現頻度から、前記日本語文書テキスト内で同じ文字種別に属するキーワードについて算出された最小出現頻度を基準として、得られる値を重みとして算出する重み算出部と、 前記重みを前記キーワードに付加して得られる重み付きキーワードと前記入力された日本語文書テキストとを対応付けるキーワード管理部と、 前記対応付けられた重み付きキーワード及び前記日本語文書テキストとを格納する文書格納部とを具備する ことを特徴とする文書インデキシングサーバ装置。
IPC (1件):
G06F 17/30
FI (2件):
G06F17/30 210A ,  G06F17/30 170A
Fターム (3件):
5B075ND03 ,  5B075NK06 ,  5B075NK24
引用特許:
出願人引用 (15件)
全件表示
審査官引用 (7件)
全件表示

前のページに戻る