特許
J-GLOBAL ID:200903001081539083
文書自動分類方法
発明者:
,
,
,
出願人/特許権者:
代理人 (1件):
吉田 研二 (外2名)
公報種別:公開公報
出願番号(国際出願番号):特願平9-054359
公開番号(公開出願番号):特開平10-254883
出願日: 1997年03月10日
公開日(公表日): 1998年09月25日
要約:
【要約】【課題】 細かい分類に対しても精度のよい分類を行うことができる文書自動分類方法を提供する。【解決手段】 学習時には、単語分割/頻度抽出部は各分類済み文書から出現単語の情報を収集する(S1)。この情報に基づき関連度演算部が各単語と各分類との関連度を求め、関連度テーブルを作成する(S2)。複数分野語処理部は、この関連度テーブルから複数の分野に対して関連の強い複数分野語を検出し(S3)、各複数分野語を関連の強い各分野ごとに分割して別々の単語とみなして、詳細化関連度テーブルなどの分類用情報を作成する(S4)。文書を分類する際には、まず単語分割/頻度抽出処理部3が、当該文書の出現単語の頻度等の情報を収集する(S5)。分類先決定部10は、この情報に基づき当該分類対象文書の出現単語の傾向を表す文書ベクトルを作成し(S6)、このベクトルと詳細化関連度テーブルとに基づき当該文書の分類先を決定する(S7)。
請求項(抜粋):
分類済みの各文書に出現する各単語の頻度集計結果に基づき各単語と各分野との関連度を登録した関連度テーブルを作成し、この関連度テーブルから、閾値より高い関連度を有する強関連分野が複数存在する複数分野単語を求め、前記関連度テーブルにおける複数分野語についての欄を、当該複数分野語とこれに対応する強関連分野との組合せごとに複数の欄に分割して詳細化関連度テーブルを作成する分類学習ステップと、分類対象の文書に出現する単語の頻度を集計し、この結果得られた頻度情報を前記複数分野語の情報によって詳細化し、この詳細化された頻度情報と前記詳細化関連度テーブルとに基づき当該文書の分類先の分野を決定する分類実行ステップと、を含むことを特徴とする文書自動分類方法。
前のページに戻る