特許
J-GLOBAL ID:201503025809897155

キーワード抽出装置、方法およびプログラム

発明者:
出願人/特許権者:
代理人 (13件): 蔵田 昌俊 ,  福原 淑弘 ,  中村 誠 ,  野河 信久 ,  峰 隆司 ,  河野 直樹 ,  砂川 克 ,  井関 守三 ,  赤穂 隆雄 ,  井上 正 ,  佐藤 立志 ,  岡田 貴志 ,  堀内 美保子
公報種別:公開公報
出願番号(国際出願番号):特願2013-196232
公開番号(公開出願番号):特開2015-060581
出願日: 2013年09月20日
公開日(公表日): 2015年03月30日
要約:
【課題】ユーザの意向を反映したキーワードを提示できる。【解決手段】本実施形態に係る文書作成支援装置は、分離部、第1抽出部、第2抽出部、生成部、計算部、第1更新部および第2更新部を含む。分離部は、ユーザの意図を表現する第1アノテーションが文字列に付与された複数の文書のそれぞれについて、第1アノテーションと該文書とを分離する。第1抽出部は、文書から一般用語を抽出する。第2抽出部は、文書からユーザ用語として抽出する。生成部は、文書どうしをクラスタリングして、1以上の文書クラスタを生成する。計算部は、文書クラスタに含まれるキーワードに対するユーザからの第2アノテーションを取得する場合、アノテーションの種類に応じて特徴量を計算する。第1更新部は、前記特徴量から前記第2アノテーションが付与されたキーワードの前記スコアを更新する。第2更新部は、更新されたスコアに応じて前記文書クラスタを更新し、更新クラスタを得る。【選択図】図1
請求項(抜粋):
ユーザの意図を表現する第1アノテーションが文字列に付与された複数の文書のそれぞれについて、該第1アノテーションと該文書とを分離する分離部と、 前記文書から、予め定義された品詞情報に基づいて一般用語を抽出する第1抽出部と、 前記文書から、複合語の出現頻度に基づいて前記一般用語とは異なる複合語をユーザ用語として抽出する第2抽出部と、 前記一般用語および前記ユーザ用語をキーワードとして該キーワードのスコアを算出し、該スコアに基づいた前記文書間の相関度が閾値以上となる文書どうしをクラスタリングして、1以上の文書クラスタを生成する生成部と、 前記文書クラスタに含まれるキーワードに対するユーザからの第2アノテーションを取得する場合、アノテーションの種類に応じて特徴量を計算する計算部と、 前記特徴量から前記第2アノテーションが付与されたキーワードの前記スコアを更新する第1更新部と、 更新されたスコアに応じて前記文書クラスタを更新し、更新クラスタを得る第2更新部と、を具備することを特徴とするキーワード抽出装置。
IPC (1件):
G06F 17/30
FI (3件):
G06F17/30 210D ,  G06F17/30 170A ,  G06F17/30 380C

前のページに戻る