文書分類装置および文書分類処理プログラム

発明者： , , ,
出願人/特許権者： ,
代理人 (15件)：蔵田昌俊 , 福原淑弘 , 中村誠 , 野河信久 , 峰隆司 , 幸長保次郎 , 河野直樹 , 砂川克 , 井関守三 , 赤穂隆雄 , 井上正 , 佐藤立志 , 岡田貴志 , 堀内美保子 , 竹内将訓
公報種別：公開公報
出願番号（国際出願番号）：特願2012-183534
公開番号（公開出願番号）：特開2014-041481
出願日： 2012年08月22日
公開日（公表日）： 2014年03月06日
要約：

【課題】複数の異なる自然言語で記述された大量の文書を、内容の類似性に基づいて言語横断的に分類するための分類構造を、効率よく作成できるようにする。【解決手段】実施形態によれば、文書分類装置は、複数の言語で記述された複数の文書のうち、同一の言語の複数の文書を対象にしてクラスタリングを行うことで各言語毎にカテゴリを生成するカテゴリ生成手段と、異なる言語の文書間の対応関係を用い、異なる言語の単語が対応関係のある文書間で共起して出現する頻度に基づき、異なる単語の単語間の対応関係を抽出する単語間対応関係抽出手段と、単語間の対応関係に基づき、異なる言語で記述された文書を分類したカテゴリ間の対応関係を抽出するカテゴリ間対応関係抽出手段とをもつ。【選択図】図1

請求項（抜粋）：

複数の異なる言語で記述された複数の文書を記憶する文書記憶手段と、前記文書記憶手段に記憶した複数の文書を対象に、前記異なる言語で記述された文書間の対応関係を記憶する文書間対応関係記憶手段と、前記文書記憶手段に記憶した複数の文書を分類するためのカテゴリを記憶するカテゴリ記憶手段と、前記文書記憶手段に記憶した前記複数の異なる言語で記述された文書から単語を抽出する単語抽出手段と、前記文書間対応関係記憶手段に記憶した、前記異なる言語で記述された文書間の対応関係を用い、前記単語抽出手段によって抽出した前記複数の異なる言語で記述された単語が、前記対応関係のある文書間で共起して出現する頻度に基づいて、当該単語間の対応関係を抽出する単語間対応関係抽出手段と、前記文書記憶手段に記憶した文書のうち、同一の言語で記述された複数の文書を対象に、前記単語抽出手段によって抽出した単語が各文書に出現する頻度についての、文書間の類似性に基づき、当該言語で記述された複数の文書をクラスタリングすることで前記カテゴリを生成するカテゴリ生成手段と、前記カテゴリ生成手段によって言語毎に生成したカテゴリである複数のカテゴリを対象に、各カテゴリに分類された文書に出現する単語の頻度と、前記単語間対応関係抽出手段によって抽出した異なる言語で記述された単語間の対応関係に基づき、あるカテゴリに分類された文書に出現する頻度が多い単語と、別のカテゴリに分類された文書に出現する頻度が多い単語との間に前記単語間の対応関係が多く存在するほど当該カテゴリ間の類似度が高いとみなすことで、前記異なる言語で記述された文書を分類したカテゴリ間の対応関係を抽出するカテゴリ間対応関係抽出手段とを具備することを特徴とする文書分類装置。

IPC (1件)：

G06F 17/30

FI (3件)：

G06F17/30 350C , G06F17/30 170A , G06F17/30 210D

引用特許：

出願人引用 (3件)

多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
公報種別：公開公報出願番号：特願2005-205370 出願人：日本電気株式会社
文書分類プログラム、文書分類方法および文書分類装置
公報種別：公開公報出願番号：特願2005-122298 出願人：富士通株式会社
複数言語を対象とした文書分類装置及び文書分類方法
公報種別：公開公報出願番号：特願2003-338177 出願人：株式会社日立製作所

審査官引用 (3件)

多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
公報種別：公開公報出願番号：特願2005-205370 出願人：日本電気株式会社
文書分類プログラム、文書分類方法および文書分類装置
公報種別：公開公報出願番号：特願2005-122298 出願人：富士通株式会社
複数言語を対象とした文書分類装置及び文書分類方法
公報種別：公開公報出願番号：特願2003-338177 出願人：株式会社日立製作所

引用文献：

出願人引用 (3件)

審査官引用 (3件)

前のページに戻る