特許
J-GLOBAL ID:200903099219927756

文書分類方法、装置、および文書分類プログラムを記録した記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 金田 暢之
公報種別:公開公報
出願番号(国際出願番号):特願平11-204599
公開番号(公開出願番号):特開2001-034622
出願日: 1999年07月19日
公開日(公表日): 2001年02月09日
要約:
【要約】【課題】 過去に与えられた教師文書と同じ特徴をもつ文書を正確に分類できるようにする。【解決手段】 分類先を表すカテゴリ名が付与されている教師文書の集合を入力し、文書特徴抽出部11で文書の特徴を抽出する。各カテゴリの特徴をカテゴリ特徴抽出部121で抽出し、カテゴリ特徴格納部122に格納する。例外特徴抽出部131は各教師文書に対して、類似度により順位づけされた分類先のカテゴリ名を取得し、最も類似度が高いカテゴリ名と教師文書に付与されているカテゴリ名を比較し、一致しない教師文書を例外文書として出力する。カテゴリ決定部14はカテゴリ名が付与されていない文書に対して類似カテゴリ検索部12の出力と例外特徴照合部13の出力を用いて、分類先のカテゴリ名を決定する。
請求項(抜粋):
分類先を表すカテゴリ名が付与されていない文書に対して分類先のカテゴリ名を決定する文書分類方法であって、分類先を表すカテゴリ名が付与されている教師文書の集合を入力する教師文書集合入力段階と、前記各教師文書の特徴を抽出する教師文書特徴抽出段階と、前記教師文書の特徴から、各カテゴリの特徴情報を抽出するカテゴリ特徴抽出段階と、前記教師文書の集合中の教師文書に対して、前記カテゴリの特徴情報を用いて各カテゴリとの類似度を算出し、類似度により順位付けされた分類先の類似カテゴリ名を取得し、前記取得されたカテゴリ名の中で前記教師文書の特徴と最もカテゴリの特徴が類似するカテゴリ名と前記教師文書に付与されているカテゴリ名を比較し、カテゴリ名が一致しない教師文書を例外文書とし、前記例外文書とされた前記教師文書の特徴と前記教師文書に付与されているカテゴリ名とを関係づけて出力する例外特徴抽出段階と、分類先のカテゴリを表すカテゴリ名が付与されていない文書を入力する文書入力段階と、前記分類先のカテゴリ名を表すカテゴリ名が付与されていない文書の特徴を抽出する文書特徴抽出段階と、前記例外特徴抽出段階の出力を用いて、前記分類先のカテゴリ名が付与されていない文書の特徴を例外の特徴としてもつカテゴリ名を出力する例外特徴照合段階と、前記分類先のカテゴリを表すカテゴリ名が付与されていない文書に対して、前記文書特徴抽出段階で得られた特徴と前記カテゴリの特徴情報を用いて各カテゴリとの類似度を算出し、類似度により順序づけて分類先のカテゴリ名を出力する類似カテゴリ検索段階と、前記分類先のカテゴリ名が付与されていない文書に対して前記類似カテゴリ検索段階の出力と前記例外特徴照合段階の出力から分類先のカテゴリ名を決定するカテゴリ決定段階と、前記決定されたカテゴリ名を出力するカテゴリ出力段階を有する文書分類方法。
IPC (2件):
G06F 17/30 ,  G06F 15/18 560
FI (3件):
G06F 15/401 310 D ,  G06F 15/18 560 A ,  G06F 15/403 350 C
Fターム (5件):
5B075NR02 ,  5B075NR12 ,  5B075PQ02 ,  5B075PR06 ,  5B075QM08

前のページに戻る