特許
J-GLOBAL ID:200903020456593719

文書分類システム

発明者:
出願人/特許権者:
代理人 (1件): 長澤 俊一郎 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願平9-059067
公開番号(公開出願番号):特開平10-254899
出願日: 1997年03月13日
公開日(公表日): 1998年09月25日
要約:
【要約】【課題】 リンク情報を利用して関連する多くの情報を集めることによりハイパーテキストのようなリンクで接続された文書を分類すること。【解決手段】 リンク情報抽出手段2は分類対象の文書D0 中からリンク情報(リンクとリンクラベル)を取り出し文書関係評価手段3に渡す。文書関係評価手段3は、分類対象文書とリンク先文書との類似度およびリンクラベルの記述内容を評価しリンク先文書を分類対象文書に含めるかを判定する。文書分類手段4は、分類対象文書から文書特徴を抽出し、分類カテゴリのカテゴリ特徴ベクトル7と類似度を計算する。そして類似度の高い分類カテゴリを上記分類対象文書に割り当てる。同様に、複数の文書からなる文書グループD1 〜DN の分類処理を行ったり、文書DT とその分類カテゴリからなる訓練データを与え、分類カテゴリの特徴ベクトルを作成し登録することができる。
請求項(抜粋):
文書と文書がリンクで接続されたテキスト中の文書を分類する文書分類システムであって、分類対象文書からリンク情報を抽出するリンク情報抽出手段と、上記リンク情報から文書のリンク先もしくはリンク元をたどって、リンク先もしくはリンク元文書を分類対象に含めるか否かを判定する文書関係評価手段と、分類対象に含まれる文書の特徴を抽出し、該文書特徴に基づき分類対象文書を該当するカテゴリに分類する文書分類手段とを備えたことを特徴とする文書分類システム。
FI (2件):
G06F 15/401 310 D ,  G06F 15/40 370 A

前のページに戻る