Pat
J-GLOBAL ID:200903020456593719

文書分類システム

Inventor:
Applicant, Patent owner:
Agent (1): 長澤 俊一郎 (外1名)
Gazette classification:公開公報
Application number (International application number):1997059067
Publication number (International publication number):1998254899
Application date: Mar. 13, 1997
Publication date: Sep. 25, 1998
Summary:
【要約】【課題】 リンク情報を利用して関連する多くの情報を集めることによりハイパーテキストのようなリンクで接続された文書を分類すること。【解決手段】 リンク情報抽出手段2は分類対象の文書D0 中からリンク情報(リンクとリンクラベル)を取り出し文書関係評価手段3に渡す。文書関係評価手段3は、分類対象文書とリンク先文書との類似度およびリンクラベルの記述内容を評価しリンク先文書を分類対象文書に含めるかを判定する。文書分類手段4は、分類対象文書から文書特徴を抽出し、分類カテゴリのカテゴリ特徴ベクトル7と類似度を計算する。そして類似度の高い分類カテゴリを上記分類対象文書に割り当てる。同様に、複数の文書からなる文書グループD1 〜DN の分類処理を行ったり、文書DT とその分類カテゴリからなる訓練データを与え、分類カテゴリの特徴ベクトルを作成し登録することができる。
Claim (excerpt):
文書と文書がリンクで接続されたテキスト中の文書を分類する文書分類システムであって、分類対象文書からリンク情報を抽出するリンク情報抽出手段と、上記リンク情報から文書のリンク先もしくはリンク元をたどって、リンク先もしくはリンク元文書を分類対象に含めるか否かを判定する文書関係評価手段と、分類対象に含まれる文書の特徴を抽出し、該文書特徴に基づき分類対象文書を該当するカテゴリに分類する文書分類手段とを備えたことを特徴とする文書分類システム。
FI (2):
G06F 15/401 310 D ,  G06F 15/40 370 A

Return to Previous Page