特許
J-GLOBAL ID:200903027581671114

テキストデータ群分類装置、方法、及び記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 高野 明近 (外1名)
公報種別:公開公報
出願番号(国際出願番号):特願2002-002997
公開番号(公開出願番号):特開2003-208436
出願日: 2002年01月10日
公開日(公表日): 2003年07月25日
要約:
【要約】【課題】 テキスト集合に所属するテキスト数が所定範囲内になるように分類数を指定し、再帰的にテキスト集合の分類を行うことで、テキストデータをテキスト集合の擬似階層構造で表現する。【解決手段】 テキストデータ群分類装置は、テキスト特徴ベクトル生成部103、分類数指定部105、テキスト分類部106、再分類判定部109を有する。分類数指定部105は、テキスト集合に属するテキスト数が所定範囲内になるように分類数を指定し、テキスト分類部106は、テキストデータ群を、生成したテキスト特徴ベクトルにより、前記指定した分類数に分類し、再分類判定部109は、分類したテキスト集合それぞれに対し、テキスト集合に所属するテキスト数と、予め指定した所属テキスト数に関する閾値とに基づき再分類するかどうか判定する。再分類判定部109により全てのテキスト集合の再分類をしないと判定されるまで再帰的にテキスト集合の分類処理を行う。
請求項(抜粋):
テキストデータ群のすべてのテキストデータからそれらを構成するトークンに関する情報を抽出するテキストデータ解析部と、前記テキストデータ解析部にて抽出されたテキストデータの解析情報を適切な形式で記憶するテキストデータ解析結果記憶部と、前記テキストデータ解析部にて抽出されたテキストデータのトークン情報に基づきテキスト特徴ベクトルを生成するテキスト特徴ベクトル生成部と、前記テキスト特徴ベクトル生成部にて生成されたテキスト特徴ベクトルの情報を適切な形式で記憶するテキスト特徴ベクトル記憶部と、生成するテキスト集合の分類数を指定する分類数指定部と、テキストデータ群を、前記生成したテキスト特徴ベクトルを用いて前記指定された分類数のテキスト集合に分類するテキスト分類部と、前記テキスト分類部で生成されたテキストデータのテキスト集合への所属情報を適切な形式で記憶するテキスト集合所属情報記憶部と、前記テキスト分類部にて生成された各テキスト集合に対して、該各テキスト集合に所属するテキストデータ数と予め指定された所属テキスト数に関する閾値とに基づき再分類処理を行うか否かを判定する再分類判定部と、前記再分類判定部にて再分類処理を行うと判定されたテキスト集合に対する分類数を、前記テキスト集合に所属するテキストデータ数と予め指定された所属テキスト数に関する定数の関数に基づき算出する再分類数算出部とを含むテキストデータ群分類装置であって、前記再分類判定部によりすべてのテキスト集合の再分類処理を行わないと判定されるまで、前記再分類判定部、再分類数算出部、テキスト分類部、テキスト集合所属情報記憶部の処理を繰り返し行うことを特徴とするテキストデータ群分類装置。
IPC (2件):
G06F 17/30 210 ,  G06F 17/30 170
FI (2件):
G06F 17/30 210 D ,  G06F 17/30 170 A
Fターム (7件):
5B075ND03 ,  5B075NK02 ,  5B075NK43 ,  5B075NR05 ,  5B075NR12 ,  5B075PP22 ,  5B075UU06
引用特許:
審査官引用 (7件)
全件表示

前のページに戻る