Pat
J-GLOBAL ID:200903019915948900
文書自動分類装置
Inventor:
,
,
,
,
,
Applicant, Patent owner:
Agent (1):
渡部 敏彦
Gazette classification:公開公報
Application number (International application number):1995046564
Publication number (International publication number):1996221447
Application date: Feb. 10, 1995
Publication date: Aug. 30, 1996
Summary:
【要約】【目的】 分類に有効な単語(有効語)をできるかぎり多数保持して、分類対象の文書に含まれる単語が保存した有効語のいずれかに一致する確率を高めると共に、文書を表現するベクトル空間の軸となる基底語の数をできるだけ少なくしてベクトル空間上での処理コストを低減できるようにする。【構成】 有効語抽出部25は、文書データベース24に複数の文書を前記カテゴリに予め分けて保存された全文書の中から有効な有効語をできるかぎり多数抽出して、有効語辞書26に登録する。基底語抽出部27は、有効語辞書26に登録された有効語の中から、文書を表現するベクトル空間の軸となる基底語をなるべく少数抽出する。有効語辞書26に登録された各有効語には、基底語との相関情報が付与されている。ベクトル表現部22は、有効語と基底語との相関情報を基に、分類対象として入力された文書を少ない次元のベクトルとして表現し、識別決定部23は、そのベクトル空間上で文書間の距離計算等を行って、文書がいずれのカテゴリに属するかを決定する。
Claim (excerpt):
文書を有限個の単語を軸とするベクトルで表現していずれのカデゴリに分類されるかを決定する文書自動分類装置において、複数の文書を前記カテゴリに予め分けて保存した文書データベースと、入力された文書を自動分類するために有効な単語を有効語として前記文書データベースに保存された文書から抽出する有効語抽出手段と、該有効語抽出手段により抽出された有効語を登録した有効語辞書と、文書のベクトル表現の軸となる基底語を前記有効語辞書に登録された有効語の中から抽出する基底語抽出手段と、を備えたことを特徴とする文書自動分類装置。
IPC (3):
G06F 17/30
, G06F 17/22
, G06F 17/27
FI (3):
G06F 15/403 350 Z
, G06F 15/20 516
, G06F 15/20 550 A
Return to Previous Page