文書検索装置

発明者：
出願人/特許権者：
代理人 (1件)：青山葆 (外1名)
公報種別：公開公報
出願番号（国際出願番号）：特願平4-344000
公開番号（公開出願番号）：特開平6-195388
出願日： 1992年12月24日
公開日（公表日）： 1994年07月15日
要約：

【要約】【目的】基本的な単語の特徴ベクトルを定義するだけで所望の文書情報を精度良く検索する。【構成】第1単語辞書5には基本単語の特徴ベクトルを予め登録する。インデックス生成部2は第1単語辞書5あるいは第2単語辞書6を参照して文書蓄積部7からの文書レコードの特徴ベクトル(インデックス)を生成してインデックステーブル8に格納する。単語特徴ベクトル生成部1はインデックステーブル8および逆インデックステーブル9を参照して新語の特徴ベクトルをレコードの特徴ベクトルに基づいて生成して第2単語辞書6に格納する。検索/表示部3はインデックステーブル8のインデックスを参照して文書を検索する。こうして、新語の特徴ベクトルを文書の文脈情報から自動的に作成することによって、基本単語の特徴ベクトルを定義するだけで所望の文書を精度良く検索できる。

請求項（抜粋）：

単語の特徴ベクトルを格納した第1単語辞書と、文書データを複数のレコードに区分して格納した文書蓄積部と、インデックス生成部と、検索/表示部を有して、上記インデックス生成部によって上記第1単語辞書に格納された単語の特徴ベクトルに基づいて所定の手順によって生成された各レコードの文書データの特徴ベクトルをインデックスとしてインデックステーブルに格納し、上記検索/表示部によって検索要求文の特徴ベクトルと上記インデックステーブルに格納された各レコードの文書データの特徴ベクトルとの距離に基づいて文書データを検索して表示する文書検索装置において、上記文書蓄積部に格納された各レコードの文書データから重要単語を抽出し、この抽出された重要単語と当該重要単語が抽出された文書蓄積部のレコード番号との組を逆インデックステーブルに格納する逆インデックス生成部と、上記逆インデックス生成部によって抽出された総ての重要単語の出現頻度の偏りに応じた重みを生成すると共に、上記抽出された重要単語が上記第1単語辞書に特徴ベクトルが格納されている重要単語である場合には当該重要単語の特徴ベクトルと上記重みとを第2単語辞書に格納する一方、上記抽出された重要単語が上記第1単語辞書に特徴ベクトルが格納されていない重要単語である場合には上記逆インデックステーブルを参照して上記インデックステーブルから求めた当該重要単語が属する総てのレコードの文書データの特徴ベクトルに基づいて所定の手順によって生成した当該重要単語の特徴ベクトルと上記重みとを上記第2単語辞書に格納する単語特徴ベクトル生成部を備えて、上記インデックス生成部は、上記第2単語辞書に上記総ての重要単語の特徴ベクトルと重みとが格納された後に、この第2単語辞書における各重要単語の特徴ベクトルと重みに基づいて再度上記各レコードの文書データの特徴ベクトルを生成して上記インデックステーブルの内容を更新することを特徴とする文書検索装置。

前のページに戻る