Pat
J-GLOBAL ID:200903073906102822
テキスト分類プログラム
Inventor:
Applicant, Patent owner:
Agent (1):
服部 毅巖
Gazette classification:公開公報
Application number (International application number):2003142007
Publication number (International publication number):2004348239
Application date: May. 20, 2003
Publication date: Dec. 09, 2004
Summary:
【課題】被分類テキストを精度よく分類する。【解決手段】機能・内容語分割手段1aは、被分類テキストA2を機能語と内容語に分割し、N-gram手段1bは、機能語と内容語の各々においてNを段階的に変化させたN-gramを行う。特徴ベクトル生成手段1cは、N-gram毎における機能語特徴ベクトルと内容語特徴ベクトルを生成する。領域判断手段1fは、機能語特徴ベクトルと内容語特徴ベクトルの各々が、分類モデル1eの手順、非手順の領域のどちらに属するかを判断する。分類手段1gは、Nが増加するとともに、機能語特徴ベクトルによる分類性能が向上した場合又は内容語特徴ベクトルによる分類性能が悪化した場合高い評価値をとり、機能語特徴ベクトルによる分類性能が悪化した場合又は内容語特徴ベクトルによる分類性能が向上した場合低い評価値をとるような評価基準を用いて、被分類テキストA2の手順を示しているか否かの分類をする。【選択図】 図1
Claim (excerpt):
手順を示しているか否かによってテキストを分類するテキスト分類プログラムにおいて、
コンピュータに、
被分類テキストを機能語と内容語とに分割し、
前記機能語と前記内容語との各々において、組み合わせ単語数を段階的に変化させたN-gramを行い、
前記N-gramごとにおける前記機能語の機能語特徴ベクトルと前記内容語の内容語特徴ベクトルとを生成し、
前記機能語特徴ベクトルと前記内容語特徴ベクトルとの各々が、学習用テキストを学習して生成した分類モデルの手順を示している領域と手順を示してない領域とのどちらの領域に属するかを判断し、
前記N-gramに用いるNが増加するとともに、前記機能語特徴ベクトルによる分類の性能が向上した場合又は前記内容語特徴ベクトルによる分類の性能が悪化した場合において高い評価値をとり、前記機能語特徴ベクトルによる分類の性能が悪化した場合又は前記内容語特徴ベクトルによる分類の性能が向上した場合に、低い評価値をとるような評価基準を用いて、前記被分類テキストの手順を示しているか否かの分類をする、
処理を実行させることを特徴とするテキスト分類プログラム。
IPC (1):
FI (2):
G06F17/30 210D
, G06F17/30 170A
F-Term (4):
5B075ND03
, 5B075NR02
, 5B075NR12
, 5B075UU06
Return to Previous Page