Pat
J-GLOBAL ID:200903023774497531

文書分類方法、文書分類装置、およびプログラムを記録する記録媒体

Inventor:
Applicant, Patent owner:
Agent (1): 金田 暢之
Gazette classification:公開公報
Application number (International application number):1999145115
Publication number (International publication number):2000339310
Application date: May. 25, 1999
Publication date: Dec. 08, 2000
Summary:
【要約】【課題】 校正されていない文章や品質の低い文章に対しても、正しく意味属性を伴う文章構造を付与し、文書作成者の意図を含んだ分類を行うことのできる文書分類方法、文書分類装置を提供する。【解決手段】 入力手段11により文書が入力されると、形態素解析手段12によって、形態素に分割される。コーパス18に格納され予め形態素情報と意味属性とが付与されている格納文書から、コーパス学習手段13により、意味属性の現れる文脈から形態素情報の頻度に基づく意味属性の特徴が学習される。意味付与手段14によって、最も類似した形態素情報の頻度に基づく特徴を有する意味属性が付与される。類似度計算手段15により、コーパス18に格納された格納文書と入力文書との意味属性を考慮した類似度が得られる。分類手段16によって、入力文書がコーパス18中の類似度の高い格納文書のあるカテゴリに分類される。
Claim (excerpt):
電子化文書から意味属性を伴う文章構造を獲得して文書を分類する方法であって、新規に文書を入力するステップと、前記入力文書を解析して基本形、品詞、活用形を含む形態素情報を備えた形態素に分割するステップと、形態素から構成され意味属性のタグが付与されている文書が予め複数格納されているコーパス(多量に収集された言語データ群 corpus)から、意味属性のタグが付与されている形態素の近傍に現れる形態素の形態素情報の頻度を獲得し、獲得された頻度から該意味属性の現れる特徴を学習するステップと、学習した結果により獲得された意味属性の現れる特徴と、前記入力文書を構成する形態素の近傍に位置する形態素の形態素情報の頻度からなる特徴とを比較し、最も類似している特徴を有する意味属性を、前記入力文書を構成する形態素の意味属性として付与するステップと、形態素に意味属性が付与された前記入力文書と前記コーパスに格納された格納文書とを、形態素情報に意味属性を加えた形態素の並びの頻度について比較して、形態素の並びの頻度に基づく文書の類似度を計算するステップと、前記入力文書と前記コーパスの比較対象とした前記格納文書との類似度が閾値を越えた場合に、前記入力文書を比較対象とした前記格納文書のカテゴリに分類するステップと、を有することを特徴とする文書分類方法。
IPC (2):
G06F 17/27 ,  G06F 17/30
FI (4):
G06F 15/38 M ,  G06F 15/401 310 D ,  G06F 15/403 330 C ,  G06F 15/403 340 B
F-Term (10):
5B075ND03 ,  5B075NR03 ,  5B075NR12 ,  5B075UU06 ,  5B091AA15 ,  5B091CA02 ,  5B091CC01 ,  5B091CC02 ,  5B091CC04 ,  5B091EA01

Return to Previous Page