Pat
J-GLOBAL ID:200903045057977131

文書自動分類装置、学習装置、分類装置、文書自動分類方法、学習方法、分類方法および記憶媒体

Inventor:
Applicant, Patent owner:
Agent (1): 渡部 敏彦
Gazette classification:公開公報
Application number (International application number):1997250126
Publication number (International publication number):1999085797
Application date: Sep. 01, 1997
Publication date: Mar. 30, 1999
Summary:
【要約】【課題】 話題を正確に反映したベクトル空間を形成することができ、分類を適正に行うことができる文書自動分類装置を提供する。【解決手段】 文書自動分類装置は、学習用文書から有効語を選定し(有効語選定部103)、学習用文書と有効語とを参照して各段落内に含まれている有効語の数を求め(段落内有効語数計算部105)、段落内有効語数を用いて各有効語の組の段落内共起頻度を求める(段落内共起頻度計算部107)。この求められた段落内共起頻度から各有効語の有効語ベクトルが求められ、学習用文書と分類対象文書のそれぞれについて、有効語ベクトルを参照して文書ベクトルが求められる。この学習用文書の文書ベクトルから求められた各カテゴリのフォルダベクトルと分類対象文書の文書ベクトルとは比較され、この比較結果に応じて分類対象文書が属するカテゴリが決定される。
Claim (excerpt):
学習用文書と該学習用文書から選出された有効語を用いて、分類対象文書をユーザの意図に沿って分類する文書自動分類装置において、前記学習用文書について前記有効語を参照して各文章単位毎にそれに含まれる各有効語の数を求める文章単位内有効語数計算手段と、前記有効語数を参照して各有効語の組の文章単位内共起頻度を求める文章単位内共起頻度計算手段と、前記文章単位内共起頻度を参照して前記各有効語の有効語ベクトルを求める有効語ベクトル計算手段と、前記学習用文書と前記分類対象文書とのそれぞれについて、前記有効語ベクトルを参照して文書ベクトルを求める文書ベクトル計算手段と、前記学習用文書について求められた文書ベクトルを用いて各カテゴリのフォルダベクトルを求めるフォルダベクトル計算手段と、前記分類対象文書について求められた文書ベクトルと前記各カテゴリのフォルダベクトルとを比較し、該比較結果に応じて前記分類対象文書が属するカテゴリを決定する分類決定手段とを備えることを特徴とする文書自動分類装置。
FI (3):
G06F 15/401 310 D ,  G06F 15/40 370 A ,  G06F 15/403 340 B

Return to Previous Page