Pat
J-GLOBAL ID:201103024526718771

文書分類システムおよび文書分類プログラムならびに文書分類方法

Inventor:
Applicant, Patent owner:
Agent (3): 筒井 大和 ,  小塚 善高 ,  筒井 章子
Gazette classification:公開公報
Application number (International application number):2010036402
Publication number (International publication number):2011170786
Application date: Feb. 22, 2010
Publication date: Sep. 01, 2011
Summary:
【課題】各カテゴリに対してキーワード等の指定を要さず、機械学習により分類ルールを学習することでテキスト文書を各カテゴリに分類し、分類結果が得られた理由がユーザに容易に理解可能である文書分類システムを提供する。【解決手段】各テキスト文書に対して言語処理を行って単語に分解する言語処理部10と、ユーザからの指示に基づいて教師データとするテキスト文書を指定する手動分類部30と、教師データに基づいて機械学習により単語毎に学習モデルを算出する学習部40と、学習モデルと分類対象のテキスト文書に含まれる各単語に基づいて、分類対象のテキスト文書について、カテゴリ毎に分類スコアを算出し、分類スコアが最大となるカテゴリに分類対象のテキスト文書を分類する自動分類部50と、各テキスト文書の各カテゴリへの分類結果、および各テキスト文書についてのカテゴリ毎の分類スコアをユーザに提示するインタフェース部60とを有する。【選択図】図1
Claim (excerpt):
テキスト文書群を取り込み、取り込んだ前記各テキスト文書を内容に応じて予めユーザが設定した複数の分類用のカテゴリに分類する文書分類システムであって、 前記各テキスト文書に対して言語処理を行って、前記各テキスト文書を単語に分解する言語処理部と、 前記ユーザからの指示に基づいて、前記各テキスト文書を前記各カテゴリに分類する際の学習モデルを得るための教師データとする前記テキスト文書を指定する手動分類部と、 前記教師データとして指定した前記テキスト文書に基づいて、機械学習により単語毎に前記学習モデルを算出する学習部と、 前記学習モデルと、分類対象の前記テキスト文書に含まれる各単語に基づいて、分類対象の前記テキスト文書について、前記カテゴリ毎に、分類対象の前記テキスト文書が前記カテゴリに分類されるべき尤度である分類スコアを算出し、前記分類スコアが最大となる前記カテゴリに分類対象の前記テキスト文書を分類する自動分類部と、 前記自動分類部による前記各テキスト文書の前記各カテゴリへの分類結果、および前記各テキスト文書についての前記カテゴリ毎の前記分類スコアを前記ユーザに提示するインタフェース部とを有することを特徴とする文書分類システム。
IPC (1):
G06F 17/30
FI (2):
G06F17/30 210D ,  G06F17/30 170A
F-Term (3):
5B075ND03 ,  5B075NR02 ,  5B075QM07
Patent cited by the Patent:
Cited by examiner (6)
Show all

Return to Previous Page