特許
J-GLOBAL ID:200903045021907650

データベース作成装置および関連文書/関連語検索装置、データベース作成方法および関連文書/関連語検索方法ならびに記憶媒体

発明者:
出願人/特許権者:
代理人 (1件): 柏木 慎史 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平11-188613
公開番号(公開出願番号):特開2001-014341
出願日: 1999年07月02日
公開日(公表日): 2001年01月19日
要約:
【要約】【課題】 小さなメモリ空間でも関連文書/関連語の検索を行うことができるようにする。【解決手段】 文書群ファイルに含まれた各文書に対して自然言語解析を行い、出現単語、この出現単語の出現頻度、およびその単語が出現した文書のIDのリストを抽出し、単語リストファイルに保存する(ステップS1)。次に、この単語リストファイル中の出現単語による情報から、行方向に出現単語、列方向に文書番号をとって、単語-文書行列を作成する(ステップS2)。そして、単語-文書行列を特異値分解して、特異値ベクトル、単語行列、文書行列を得(ステップS4)、この特異値ベクトル、単語行列、文書行列の各々について要素を大きい方からk個だけ取り出し、新たな特異値ベクトル、単語行列、文書行列を生成することで次元数を低減する(ステップS5)。
請求項(抜粋):
文書群に出現する単語の抽出を行なって当該単語に関する情報のリストを生成する単語抽出部と、前記文書群を構成する各文書が前記リストの単語のうちのどれを含んでいるかを示す単語-文書行列を生成する単語-文書対応作成部と、この単語-文書行列を特異値分解する特異値分解部と、この特異値分解後の結果から特異値を大きい方から所定数だけ取り出して前記結果を次元低減したデータを作成する次数低減部とを備えている関連文書/関連語検索用のデータベース作成装置。
FI (2件):
G06F 15/401 310 A ,  G06F 15/40 370 A
Fターム (7件):
5B075ND03 ,  5B075NK02 ,  5B075NK32 ,  5B075PQ05 ,  5B075PQ46 ,  5B075PR10 ,  5B075UU40
引用文献:
前のページに戻る