特許
J-GLOBAL ID:201403006450263730

文書分類装置および文書分類処理プログラム

発明者:
出願人/特許権者:
代理人 (15件): 蔵田 昌俊 ,  福原 淑弘 ,  中村 誠 ,  野河 信久 ,  峰 隆司 ,  幸長 保次郎 ,  河野 直樹 ,  砂川 克 ,  井関 守三 ,  赤穂 隆雄 ,  井上 正 ,  佐藤 立志 ,  岡田 貴志 ,  堀内 美保子 ,  竹内 将訓
公報種別:公開公報
出願番号(国際出願番号):特願2012-183534
公開番号(公開出願番号):特開2014-041481
出願日: 2012年08月22日
公開日(公表日): 2014年03月06日
要約:
【課題】複数の異なる自然言語で記述された大量の文書を、内容の類似性に基づいて言語横断的に分類するための分類構造を、効率よく作成できるようにする。【解決手段】実施形態によれば、文書分類装置は、複数の言語で記述された複数の文書のうち、同一の言語の複数の文書を対象にしてクラスタリングを行うことで各言語毎にカテゴリを生成するカテゴリ生成手段と、異なる言語の文書間の対応関係を用い、異なる言語の単語が対応関係のある文書間で共起して出現する頻度に基づき、異なる単語の単語間の対応関係を抽出する単語間対応関係抽出手段と、単語間の対応関係に基づき、異なる言語で記述された文書を分類したカテゴリ間の対応関係を抽出するカテゴリ間対応関係抽出手段とをもつ。【選択図】 図1
請求項(抜粋):
複数の異なる言語で記述された複数の文書を記憶する文書記憶手段と、 前記文書記憶手段に記憶した複数の文書を対象に、前記異なる言語で記述された文書間の対応関係を記憶する文書間対応関係記憶手段と、 前記文書記憶手段に記憶した複数の文書を分類するためのカテゴリを記憶するカテゴリ記憶手段と、 前記文書記憶手段に記憶した前記複数の異なる言語で記述された文書から単語を抽出する単語抽出手段と、 前記文書間対応関係記憶手段に記憶した、前記異なる言語で記述された文書間の対応関係を用い、前記単語抽出手段によって抽出した前記複数の異なる言語で記述された単語が、前記対応関係のある文書間で共起して出現する頻度に基づいて、当該単語間の対応関係を抽出する単語間対応関係抽出手段と、 前記文書記憶手段に記憶した文書のうち、同一の言語で記述された複数の文書を対象に、前記単語抽出手段によって抽出した単語が各文書に出現する頻度についての、文書間の類似性に基づき、当該言語で記述された複数の文書をクラスタリングすることで前記カテゴリを生成するカテゴリ生成手段と、 前記カテゴリ生成手段によって言語毎に生成したカテゴリである複数のカテゴリを対象に、各カテゴリに分類された文書に出現する単語の頻度と、前記単語間対応関係抽出手段によって抽出した異なる言語で記述された単語間の対応関係に基づき、あるカテゴリに分類された文書に出現する頻度が多い単語と、別のカテゴリに分類された文書に出現する頻度が多い単語との間に前記単語間の対応関係が多く存在するほど当該カテゴリ間の類似度が高いとみなすことで、前記異なる言語で記述された文書を分類したカテゴリ間の対応関係を抽出するカテゴリ間対応関係抽出手段と を具備することを特徴とする文書分類装置。
IPC (1件):
G06F 17/30
FI (3件):
G06F17/30 350C ,  G06F17/30 170A ,  G06F17/30 210D
引用特許:
出願人引用 (3件) 審査官引用 (3件)
引用文献:
出願人引用 (3件) 審査官引用 (3件)

前のページに戻る