特許
J-GLOBAL ID:200903084847885976

文書分類装置、文書分類方法、プログラム及び記録媒体

発明者:
出願人/特許権者:
代理人 (1件): 羽立 幸司
公報種別:公開公報
出願番号(国際出願番号):特願2007-145343
公開番号(公開出願番号):特開2008-299616
出願日: 2007年05月31日
公開日(公表日): 2008年12月11日
要約:
【課題】 各クラスタの文書数の偏りを防ぐのに適した文書分類装置等を提案する。【解決手段】 指定された個数に複数の文書データを分類する文書分類装置1は、複数の文書データから単語を抽出する単語抽出部5と、単語抽出部5により抽出された各単語が存在する文書データの数を計算する文書数計算部7と、指定された個数に基づいて、文書数計算部7により計算された文書データの数の多い単語から順に単語を抽出する単語限定部11と、単語限定部11により抽出された単語で複数の文書データをベクトル化するベクトル化部13と、ベクトル化部13により生成されたベクトルを指定された個数に分類する分類部15を備える。【選択図】 図1
請求項(抜粋):
指定された個数に複数の文書データを分類する文書分類装置であって、 前記複数の文書データから単語を抽出する単語抽出手段と、 前記単語抽出手段により抽出された各単語が存在する文書データの数を計算する文書数計算手段と、 前記指定された個数に基づいて、前記文書数計算手段により計算された文書データの数の多い単語から順に単語を抽出する単語限定手段と、 前記単語限定手段により抽出された単語で前記複数の文書データをベクトル化するベクトル化手段と、 前記ベクトル化手段により生成されたベクトルを前記指定された個数に分類する分類手段と、 を備える文書分類装置。
IPC (1件):
G06F 17/30
FI (2件):
G06F17/30 210D ,  G06F17/30 170A
Fターム (3件):
5B075ND03 ,  5B075NR02 ,  5B075NR20
引用特許:
審査官引用 (3件)
引用文献:
審査官引用 (2件)

前のページに戻る