特許
J-GLOBAL ID:200903073906102822

テキスト分類プログラム

発明者:
出願人/特許権者:
代理人 (1件): 服部 毅巖
公報種別:公開公報
出願番号(国際出願番号):特願2003-142007
公開番号(公開出願番号):特開2004-348239
出願日: 2003年05月20日
公開日(公表日): 2004年12月09日
要約:
【課題】被分類テキストを精度よく分類する。【解決手段】機能・内容語分割手段1aは、被分類テキストA2を機能語と内容語に分割し、N-gram手段1bは、機能語と内容語の各々においてNを段階的に変化させたN-gramを行う。特徴ベクトル生成手段1cは、N-gram毎における機能語特徴ベクトルと内容語特徴ベクトルを生成する。領域判断手段1fは、機能語特徴ベクトルと内容語特徴ベクトルの各々が、分類モデル1eの手順、非手順の領域のどちらに属するかを判断する。分類手段1gは、Nが増加するとともに、機能語特徴ベクトルによる分類性能が向上した場合又は内容語特徴ベクトルによる分類性能が悪化した場合高い評価値をとり、機能語特徴ベクトルによる分類性能が悪化した場合又は内容語特徴ベクトルによる分類性能が向上した場合低い評価値をとるような評価基準を用いて、被分類テキストA2の手順を示しているか否かの分類をする。【選択図】 図1
請求項(抜粋):
手順を示しているか否かによってテキストを分類するテキスト分類プログラムにおいて、 コンピュータに、 被分類テキストを機能語と内容語とに分割し、 前記機能語と前記内容語との各々において、組み合わせ単語数を段階的に変化させたN-gramを行い、 前記N-gramごとにおける前記機能語の機能語特徴ベクトルと前記内容語の内容語特徴ベクトルとを生成し、 前記機能語特徴ベクトルと前記内容語特徴ベクトルとの各々が、学習用テキストを学習して生成した分類モデルの手順を示している領域と手順を示してない領域とのどちらの領域に属するかを判断し、 前記N-gramに用いるNが増加するとともに、前記機能語特徴ベクトルによる分類の性能が向上した場合又は前記内容語特徴ベクトルによる分類の性能が悪化した場合において高い評価値をとり、前記機能語特徴ベクトルによる分類の性能が悪化した場合又は前記内容語特徴ベクトルによる分類の性能が向上した場合に、低い評価値をとるような評価基準を用いて、前記被分類テキストの手順を示しているか否かの分類をする、 処理を実行させることを特徴とするテキスト分類プログラム。
IPC (1件):
G06F17/30
FI (2件):
G06F17/30 210D ,  G06F17/30 170A
Fターム (4件):
5B075ND03 ,  5B075NR02 ,  5B075NR12 ,  5B075UU06

前のページに戻る