特許
J-GLOBAL ID:201203073376009520

キーワード抽出装置及び方法、ならびに、プログラム

発明者:
出願人/特許権者:
代理人 (2件): 志賀 正武 ,  村山 靖彦
公報種別:公開公報
出願番号(国際出願番号):特願2010-167130
公開番号(公開出願番号):特開2012-027777
出願日: 2010年07月26日
公開日(公表日): 2012年02月09日
要約:
【課題】複数の文書において特徴的な言葉を上位階層のキーワードとして選択し、階層化されたキーワードを抽出するとともに、各階層のキーワードを適切に絞り込む。【解決手段】各文書からキーワードを抽出し、各キーワードが出現する文書の数である累積カウント数をカウントする。さらに、同一のキーワードの組み合わせが複数の文書に出現した場合はそれらを仮想的に一つの文書とみなし、各キーワードが出現する文書の数であるユニークカウント数をカウントする。累積カウント数及びユニークカウント数とも上位である単一語を最上位階層のキーワードとして抽出し、累積カウント数が上位、あるいは、ユニークカウント数が上位である複合語を第2階層のキーワードとして抽出する。抽出後、同じ文書に含まれる最上位階層のキーワードと第2階層のキーワードを対応付け、階層化する。【選択図】図1
請求項(抜粋):
複数の文書からキーワードを抽出し、抽出した前記キーワードそれぞれが出現する前記文書の数をカウントして累積カウント数を得るとともに、同じ組み合わせのキーワードが出現する複数の文書については出現する文書の数を1として、抽出した前記キーワードが出現する前記文書の数をカウントしてユニークカウント数を得るキーワード抽出部と、 前記キーワード抽出部により得られた前記累積カウント数が所定条件以上であり、かつ、前記ユニークカウント数が所定条件以上である前記キーワードのうち、単一語であるキーワードを最上位階層のキーワードとして選択するとともに、前記キーワード抽出部により得られた累積カウント数が所定条件以上、または、前記ユニークカウント数が所定条件以上であるキーワードのうち、複合語であるキーワードを下位階層のキーワードとして選択するキーワード解析部と、 前記最上位階層のキーワードと同じ前記文書に出現する前記下位階層のキーワードを、前記最上位階層のキーワードの配下の第2階層のキーワードとして抽出するキーワード階層生成部と、 を備えることを特徴とするキーワード抽出装置。
IPC (1件):
G06F 17/30
FI (2件):
G06F17/30 210A ,  G06F17/30 414A
Fターム (3件):
5B075KK02 ,  5B075ND35 ,  5B075UU06
引用特許:
出願人引用 (2件)
引用文献:
前のページに戻る